데이터의 outlier나, 노이즈들을 모델기반 말고 그전에 처리할 수 있는 방법에 대해 소개하고 있다.
Data -> Vector Space -> Semantic Space(비슷한 데이터끼리 가까운 곳에 위치)
- Feature generation / vectorizing
- Feature selection
- Feature extraction / transformation : 변수 추출은 중복된 변수를 제거하는데 이용될 수 있다. PCA는 경향이 비슷한 여러 features를 하나의 새로운 feature로 묶을 수 있다. 모델의 regulrization cost가 감소
- Centering : $$X^j <- X^j - mean(X^j)$$
- Standardization : $$X^j <- X^j - mean(X^j)/sigma_X^j $$
- min-max scaling : 0~1 또는 -1 ~ 1 사이에 존재하도록 특정
- Binning : 연속형 변수를 이산형 변수로 변형, 너무 정보가 많은 경우 범위를 지정하여 중요 정보만 활용
- PCA : 경향이 비슷한 여러 features를 하나의 새로운 feature로 묶음
데이터의 방향적 분포를 잘 설명하는 새로운 차원의 직교 좌표를 학습
-variance가 큰 방향벡터를 탐색하는 방법으로 SVD(Singular Vector Decomposition)이 이용
-U와 V는 orthogonal matrix(inverse matrix와 곱하였을 때 단위벡터가 된다. 직교성, 단위벡터 특징을 같는다.)
-diagonal matrix는 PCA에서의 각 component별 중요도를 표현한다.(축의 정보성)
-
KPCA(kernel PCA) : n 개의 데이터를 유사도 벡터로 축 변환한 뒤 pca를 적용
-Linear, Polynomial, RBF kernel, Sigmoid, Cosine등의 kernels이 사용
-
t-SNE, UMAP은 새로운 feature를 만드는 것은 아니지만 시각화에 도움
-SNE -> t-SNE -> LargeVis -> UMAP 으로 발전, 고차원에서 가까운 점이 저차원에서 가까워질 수 있도록 시각화
'센서 신호처리' 카테고리의 다른 글
[논문 리뷰] A Road Condition Classification Algorithm for a Tire Acceleration Sensor using an Artificial Neural Network (0) | 2020.09.14 |
---|---|
[BLE] Nordic Enhanced ShockBurst User Guide (0) | 2020.09.12 |
[머신러닝5강] Convolutional Neural Network (0) | 2020.08.23 |
[머신러닝4강] Neural Network (0) | 2020.08.16 |
[머신러닝 2강] Linear Regression (0) | 2020.08.08 |