Grupowanie (analiza skupień) (ang. data clustering) - pojęcie z zakresu eksploracji danych oraz uczenia się maszyn, wywodzi się z szerszego pojęcia jakim jest klasyfikacja bezwzorcowa.

Analiza skupień jest metodą tzw. klasyfikacji bez nadzoru (ang. unsupervised learning). Jest to metoda dokonująca grupowania elementów we względnie jednorodne klasy. Podstawą grupowania w większości algorytmów jest podobieństwo pomiędzy elementami - wyrażone przy pomocy funkcji (metryki) podobieństwa.

Poprzez grupowanie można również rozwiązać problemy z gatunku odkrywania struktury w danych oraz dokonywanie uogólniania. Grupowanie polega na wyodrębnianiu grup (klas, podzbiorów).

Wybrane cele dokonywania grupowania są następujące:

  • uzyskanie jednorodnych przedmiotów badania, uÅ‚atwiajÄ…cych wyodrÄ™bnienie ich zasadniczych cech,
  • zredukowanie dużej liczby danych pierwotnych do kilku podstawowych kategorii, które mogÄ… być traktowane jako przedmioty dalszej analizy,
  • zmniejszenie nakÅ‚adu pracy i czasu analiz, których przedmiotem bÄ™dzie uzyskanie klasyfikacji obiektów typowych,
  • odkrycie nieznanej struktury analizowanych danych,
  • porównywanie obiektów wielocechowych.

edytuj Metody grupowania

Grupowanie jako jedna z metod pozyskiwania wiedzy, a tym samym eksploracji danych jest ściśle uwarunkowana źródłem danych oraz oczekiwaną postacią rezultatów. Algorytmy analizy skupień dzieli się na kilka podstawowych kategorii:

  • metody hierarchiczne – algorytm tworzy dla zbioru obiektów hierarchiÄ™ klasyfikacji zaczynajÄ…c od takiego podziaÅ‚u, w którym każdy obiekt stanowi samodzielne skupienie a koÅ„czÄ…c na podziale, w którym wszystkie obiekty należą do jednego skupienia. IstniejÄ… dwa rodzaje metod hierarchicznych:
    • procedury aglomeracyjne (ang. agglomerative) – tworzÄ… macierz podobieÅ„stw klasyfikowanych obiektów a nastÄ™pnie w kolejnych krokach łączÄ… w skupienia obiekty najbardziej do siebie podobne,
    • procedury deglomeracyjne (ang. divisive) - zaczynajÄ… od skupienia obejmujÄ…cego wszystkie obiekty a nastÄ™pnie w kolejnych krokach dzielÄ… je na mniejsze i bardziej jednorodne skupienia aż do momentu gdy każdy obiekt stanowi samodzielne skupienie.
  • grupa metod K-Å›rednich (ang. k-means) w której grupowanie polega na wstÄ™pnym podzieleniu populacji na z góry zaÅ‚ożonÄ… liczbÄ™ klas. NastÄ™pnie uzyskany podziaÅ‚ jest poprawiany w ten sposób, że niektóre elementy sÄ… przenoszone do innych klas, tak aby uzyskać minimalnÄ… wariancjÄ™ wewnÄ…trz uzyskanych klas. Podstawowy algorytm (J. MacQueen, 1967):
    • losowy wybór Å›rodków (centroidów) klas (skupieÅ„),
    • przypisanie punktów do najbliższych centroidów,
    • wyliczenie nowych Å›rodków skupieÅ„,
    • powtarzanie algorytmu aż do osiÄ…gniÄ™cia kryterium zbieżnoÅ›ci (najczęściej krok w którym nie zmieniÅ‚a siÄ™ przynależność punktów do klas);
  • metody rozmytej analizy skupieÅ„ (ang. fuzzy clustering), wÅ›ród których najbardziej znanÄ… jest metoda c-Å›rednich (c-means). Metody rozmytej analizy skupieÅ„ mogÄ… przydzielać element do wiÄ™cej niż jednej kategorii. Z tego powodu algorytmy rozmytej analizy skupieÅ„ sÄ… stosowane w zadaniu kategoryzacji (przydziaÅ‚u jednostek do jednej lub wielu kategorii). Metody rozmytej analizy skupieÅ„ różniÄ… siÄ™ pod tym wzglÄ™dem od metod klasycznej analizy skupieÅ„, w których uzyskana klasyfikacja ma charakter grupowania rozłącznego, którego wynikiem jest to, że każdy element należy do jednej i tylko jednej klasy.

edytuj Zastosowania

  • wstÄ™pna analiza danych, polegajÄ…ca na wyodrÄ™bnieniu jednorodnych grup (subpopulacji), które podlegajÄ… osobnej dalszej analizie statystycznej lub ekonometrycznej;
  • eksploracja danych (ang. data mining), gdzie grupowanie używane jest np. do podziaÅ‚u klientów na pewne podgrupy;
  • wyszukiwanie informacji (ang. information retrieval), majÄ…ca za zadanie uporzÄ…dkowanie i uproszczenie dostÄ™pu do informacji. Do klasycznych zastosowaÅ„ należy klasyfikacja dokumentów tekstowych: książek, czy stron internetowych;
  • segmentacja obrazu (ang. image segmentation), czyli podziaÅ‚ obrazu na regiony homogeniczne pod wzglÄ™dem pewnej wÅ‚asnoÅ›ci obrazu (kolor, tekstura, intensywność). Taki uproszczony obraz jest prostszy do obróbki np. przez algorytmy rozpoznawania obrazu;
  • grupowanie zadaÅ„ w problemie harmonogramowania tak, by zadania intensywnie ze sobÄ… komunikujÄ…ce siÄ™ trafiÅ‚y do tej samej grupy. Taka grupa zostanie w nastÄ™pnym kroku przypisana do wykonania na jednym procesorze (bÄ…dź kilku, ale połączonych szybkimi kanaÅ‚ami komunikacyjnymi).

edytuj Bibliografia

  • Jain, Murty and Flynn: Data Clustering: A Review, ACM Comp. Surv, 1999. [1]
  • A.D. Gordon: Classification. Chapman & Hall, London New York Washington, 1999
  • P. Cichosz: Systemy uczÄ…ce sie. WNT, Warszawa, 2000.
  • Everitt, B. S., Landau S., Leese M., Cluster analysis, London : Arnold ; New York : Oxford University Press, 2001.
  • Aldenderfer, M. S., Blashfield, R. K., Cluster analysis (Quantitative Applications in the Social Sciences), Sage Publications, 1984.