형성, 중등 교육 학교
가장 가까운 이웃 방법 : 작업의 예
가장 가까운 이웃 방법은 다른 개체의 유사성의 평가에 기초하여 상기 메트릭 쉬운 분류된다.
분석 대상은 훈련 샘플의 주제에 속하는되는 클래스에 속한다. 우리가 가장 가까운 이웃 인 알아 보자. 복잡한 문제, 다른 기술의 예를 이해하려고합니다.
가설 방법
가장 가까운 이웃 방법은 분류에 사용되는 가장 일반적인 알고리즘으로 간주 될 수있다. 분류를받은 개체 x_i로부터 샘플을 학습하는 가장 가까운 개체에, 클래스 y_i에 속한다.
방법 가까운 이웃의 특이성
분류의 정확성을 향상시킬 수있는 가장 가까운 이웃 방법 케이. 분석 된 객체는 분석 된 샘플 x_i로부터의 객체, 즉, 근접 K, 이웃의 부피와 같은 클래스에 속한다. 이웃 같은 번호가 다른 클래스에 속할 경우 이웃의 수의 두 클래스 문제를 해결하기에 모호한 상황을 피하기 위해 이상한 것입니다.
부유 이웃의 기술
클래스 적어도 세 가지의 수는, 당신은 홀수 번호를 사용할 수 없을 때 사용되는 가장 가까운 tsvector 이웃 PostgreSQL을-분석 방법. 그러나 모호성은 이러한 경우에도 발생한다. 이어서, i 번째 이웃 인접 순위 나 감소 w_i 중량을 얻는다. 그것은 가까운 이웃 사이에 최대 총 중량이있을 것이다 객체의 클래스를 의미한다.
소형의 가설
위의 모든 방법의 핵심은 소형의 가설이다. 이는 객체의 유사성의 측정 값과 그와 같은 클래스에 속하는 간의 연결을 의미한다. 이 상황에서, 다른 유형 사이의 경계는 단순한 형태이며, 공간 소형 모바일 영역에서 객체의 클래스를 만들 수 있습니다. 같은 분야에서 수학적 분석에 폐쇄 경계 세트를 의미하는 촬영. 이 가설은 단어의 일상 인식 관련이 없습니다.
기본 식
우리가 더 가까운 이웃을 살펴 보자. 만약 제안 된 훈련 샘플 유형 "개체 응답»X ^ m = \ {(X_1, y_1), \ 점, (x_m, y_m) \}; 복수의 물체 거리 함수 \ (ρ) (X, X ')을 정의하는 경우, 함수의 값을 증가시킴으로써 개체의 적절한 모델 유사성의 형태로 표현되며, X, X 객체 간의 유사도를 감소한다.'
모든 개체를 들어, u는 훈련 샘플 폴리스 거리가 증가 x_i로부터 객체를 구축 할 것입니다 :
\의 Rho (U, X_ {1, U}) \ 당량 \ RHO (U, X_ {2;} U) \ 당량 \ cdots \ 당량 \ RHO (U, X_ {m, U})
여기서 X_ {I; U는 U}는 i 번째 이웃 소스 대상인 객체 학습 샘플을 특성화. 이러한 표기 및 사용은 i 번째 이웃에 댓글을 올리려면 : Y_를 {내가; U}. 그 결과, 우리는 어떤 객체 u는 자신의 샘플을 넘버링 유발 것을 찾을 수 있습니다.
이웃의 수 k의 결정
접 방법 때 K = 1 개체 배출량에뿐만 아니라, 주변의 다른 클래스뿐만 아니라 오 분류를 제공 할 수있다.
우리의 m = k는 취할 경우, 알고리즘은 안정되고 일정한 값으로 변질된다. 신뢰성 지수 극단적 케이 피하기 위해 중요한 이유이다.
실제로, 최적의 인덱스 k가 사용되는 기준 제어 슬라이딩.
상영 배출
연구의 목적은 크게 불평등 있지만, 그들 사이에 클래스의 특성을 가지고 있으며 표준으로 언급하는 사람들이있다. 이 클래스에 속하는의 높은 확률의 이상적인 모델에 피사체의 근접에서.
가장 가까운 이웃의 방법 rezultativen 방법은? 예는 개체의 주변 및 비 - 카테고리 정보에 기초하여 알 수있다. 그것은이 클래스의 객체의 다른 대표의 고밀도 환경을 가정한다. 때 당신은 고통을하지 않습니다 품질을 샘플링의 분류에서 제거.
샘플 클래스의 "지상에"있는 수도 노이즈 버스트의 특정 번호로 가져옵니다. 분류의 품질에 실질적으로 긍정적 인 영향을 제거.
샘플이 가치가없는 및 제거 노이즈 객체에서 가져온 경우에, 당신은 같은 시간에 몇 가지 긍정적 인 결과를 기대할 수 있습니다.
첫 번째 의 보간 방법 가장 가까운 이웃 분류, 품질을 향상 저장된 데이터의 양을 줄이고, 다음 기준의 선택에 소요되는 분류의 시간을 줄일 수 있습니다.
초대형 샘플의 사용
가장 가까운 이웃 방법은 학습 객체의 실제 스토리지를 기반으로합니다. 기술적 인 문제를 사용하여 매우 큰 규모의 샘플을 만듭니다. 목표는 상당한 양의 정보를 저장하는 것이 아니라, 또한 최소한의 시간에 u는 가장 가까운 이웃 사이 케이 물건을 찾기 위해 시간을 가지고.
이 작업에 대처하기 위해 두 가지 방법이 사용된다 :
- 방전이 아닌 데이터 객체를 통해 박형 샘플;
- 효과적인 사용 특수 데이터 구조와 가장 가까운 이웃의 빠른 검색을위한 코드.
선택 방법의 규칙
위의 분류는 고려되었다. 접있어서 미리 거리 함수 \ (ρ)가 공지되어 실질적인 문제를 해결하는데 사용된다 (X, X '). 설명 목적으로 숫자 벡터는 유클리드 메트릭을 사용한다. 이 선택은 특별한 명분이 없다, 그러나 모든 징후의 측정을 포함한다 "같은 규모를." 이 요소가 고려되지 않는 경우, 메트릭이 기능을 가장 높은 숫자 값을 갖는 우세합니다.
특정 증상에 대한 편차의 합으로 거리를 계산 기능의 상당한 양의가있는 경우 심각한 문제가 치수를 나타납니다.
서로 모든 물체에서 멀리 떨어진 높은 차원 공간에서. 궁극적으로, 모든 샘플은 개체에 대한 다음은 K 이웃을 공부하고있을 것입니다. 정보 기능의 소수를 선택하면이 문제를 제거합니다. 추정치를 계산하기위한 알고리즘은 증상의 다른 세트에 근거하여 구축하고, 각 개인에 대한 근접성 기능을 구축 할 수 있습니다.
결론
수학 계산은 종종 자신의 독특한 특성, 장점과 단점을 가지고 다양한 기술의 사용을 포함한다. 본 가장 가까운 이웃 방법 때문에 수학적 대상의 특성에 매우 심각한 문제를 해결할 수 있습니다. 분석 방법에 따라 실험 개념은 적극적으로 인공 지능에 사용되고있다.
전문가 시스템에서는 그냥 객체를 분류뿐만 아니라 사용자에게 문제의 분류에 대한 설명을 표시하지 않도록해야합니다. 이 방법에서는,이 현상에 대한 설명은, 특정 클래스의 객체뿐만 아니라 사용 된 시료의 상대적인 위치 관계로 표현된다. 법률 업계 전문가, 지질 학자, 의사, 적극적으로 자신의 연구에서 사용이 "전례"논리를 가지고.
위해서는 방법은 또한 분석 된 객체 간의 배출을 방지하면서 원하는 결과를 제공, 효율적으로, 가장 신뢰할 수있는, 당신은 최소한의 그림 K를 수행해야했다 분석한다. 그 이유는 표준의 사용과 선택 방법뿐만 아니라, 최적화 메트릭.
Similar articles
Trending Now