Bevezetés az adatbányászatba

Pang-Ning Tan

Michael Steinbach

Vipin Kumar

Gonda László

2., 7. fejezet 

Fülöp András

8. fejezet 

Hajas Csilla

10. fejezet 

Ispány Márton

1., 2., 3., 4., 8. fejezet, B függelék 

Jeszenszky Péter

5., 7., 8., 10. fejezet 

Mező István

Függelékek 

Sterbinszky Nóra

3. fejezet 

Szathmáry László

6. fejezet 

Zempléni András

9. fejezet 

Lukács András

Lektorálta 

Új Széchenyi Terv logó.

A mű eredeti címe: Introduction to Data Mining, 1st Edition by Pang-Ning Tan, Michael Steinbach, Vipin Kumar

A fordítás a Pearson Education, Inc. engedélyével jelent meg.

Minden jog fenntartva. Jelen könyvet, illetve annak részeit tilos reprodukálni, adatrögzítő rendszerben tárolni, bármilyen formában vagy eszközzel – elektronikus úton vagy más módon – közölni a kiadók engedélye nélkül.

Az elektronikus kiadásért felel a Panem Könyvkiadó Kft. ügyvezetője, Budapest, 2011

Authorized Translation from the English language edition, entitled Introduction to Data Mining, 1st Edition by Pang-Ning Tan; Michael Steinbach; Vipin Kumar, published by Pearson Education, Inc, publishing as Addison-Wesley, 2006

All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearson Education, Inc.

Electronic hungarian language edition published by Panem Könyvkiadó Kft.

A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046 számú Kelet-magyarországi Informatika Tananyag Tárház projekt keretében készült. A tananyagfejlesztés az Európai Unió támogatásával és az Európai Szociális Alap társfinanszírozásával valósult meg.

A Kelet-magyarországi Informatika Tananyag Tárház logója.

Magyarország megújul logó.

Nemzeti Fejlesztési Ügynökség 06 40 638-638

Az EU logója.


Tartalom

Előszó
1. Bevezetés
Mi az adatbányászat?
Ösztönző kihívások
Az adatbányászat eredete
Adatbányászati feladatok
A könyv témája és szerkezete
Irodalmi megjegyzések
Feladatok
2. Adatok
Adattípusok
Attribútumok és mérésük
Az adatállományok típusai
Adatminőség
A mérés és adatgyűjtés kérdései
Alkalmazásokhoz kapcsolódó kérdések
Az adatok előfeldolgozása
Aggregálás
Mintavétel
Dimenziócsökkentés
Jellemzők részhalmazainak kiválasztása
Jellemzők létrehozása
Diszkretizálás és binarizálás
Változó transzformáció
Hasonlósági és különbözőségi mértékek
Alapok
Egyszerű attribútumok hasonlósága és különbözősége
Adatobjektumok különbözőségei
Hasonlóságok adatobjektumok között
Példák szomszédsági mértékekre
A szomszédság kiszámításának kérdései
A megfelelő szomszédsági mérték kiválasztása
Irodalmi megjegyzések
Feladatok
3. Adatfeltárás
Az Írisz-adathalmaz
Összegző statisztikák
Gyakoriságok és a módusz
Percentilisek
Helyzetmutatók: átlag és medián
A szóródás mérőszámai: terjedelem és variancia
Többváltozós összegző statisztikák
Az adatok összegzésének további módjai
Vizualizáció
Miért érdemes vizualizációt alkalmazni?
Általános fogalmak
Módszerek
Magasabb dimenziójú adatok vizualizációja
Mit tegyünk és mit kerüljünk el?
OLAP-módszerek és többdimenziós adatelemzés
Az Írisz-adatok többdimenziós ábrázolása
Többdimenziós adatok: általános eset
Többdimenziós adatok elemzése
Záró megjegyzések a többdimenziós adatelemzéshez
Irodalmi megjegyzések
Feladatok
4. Osztályozás:Alapfogalmak, döntési fák és modellek kiértékelése
Bevezetés
Az osztályozási probléma megoldásának általános megközelítése
Döntési fa következtetés
Hogyan építsünk döntési fát
Az attribútum tesztfeltételek kifejezésének módszerei
Mérőszámok a legjobb vágás kiválasztására
A döntési fa következtetés algoritmusa
Példa: web-robot észlelés
A döntési fa következtetés jellemzői
Modell túlillesztés
Zaj miatti túlillesztés
Túlillesztés jellegzetes minták hiánya miatt
Túlillesztés és a többszörös összehasonlítási eljárás
Általánosítási hibák becslése
A túlillesztés kezelése döntési fa következtetésnél
Egy osztályozó teljesítményének a kiértékelése
Visszatartó módszer
Véletlen alulmintavételezés
Keresztellenőrzés
Bootstrap
Osztályozók összehasonlításának módszerei
A pontosság becslése konfidencia intervallummal
Két modell teljesítményének az összehasonlítása
Két osztályozó teljesítményének az összehasonlítása
Irodalmi megjegyzések
Feladatok
5. Osztályozás: Alternatív módszerek
Szabályalapú osztályozó
A szabályalapú osztályozó működése
Szabályrendezési sémák
Szabályalapú osztályozó építése
Szabálykinyerés direkt módszerekkel
Szabálykinyerés indirekt módszerekkel
Szabályalapú osztályozók jellemzése
Legközelebbi szomszéd osztályozók
Algoritmus
A legközelebbi szomszéd osztályozó jellemzői
Bayes-féle osztályozók
Bayes-tétel
A Bayes-tétel felhasználása osztályozásra
Naiv Bayes-féle osztályozó
Bayes-féle hibaarány
Bayes-féle bizonyossághálók
Mesterséges neurális hálók
Perceptron
Többrétegű mesterséges neurális hálók
Az ANN jellemzői
Tartóvektor-gép (SVM)
Maximális margójú hipersíkok
Lineáris SVM: szeparálható eset
Lineáris SVM: nem szeparálható eset
Nemlináris SVM
Az SVM jellemzői
Együttes módszerek
Az együttes módszer magyarázata
Módszerek együttes osztályozó építésére
Torzítás-variancia felbontás
Zsákolás
Gyorsítás
Véletlen erdők
Együttes módszerek közötti empirikus összehasonlítás
Az osztály-kiegyensúlyozatlanság problémája
Alternatív metrikák
A vevő működési karakterisztika (ROC) görbe
Költségérzékeny tanulás
Mintavételezés-alapú módszerek
Többosztályos problémák
Irodalmi megjegyzések
Feladatok
6. Asszociációs elemzés: Alapvető fogalmak és algoritmusok
A probléma leírása
Gyakori elemhalmazok előállítása
Az apriori-elv
Gyakori elemhalmazok előállítása az Apriori algoritmussal
Jelöltek előállítása és nyesése
A támogatottsági szint kiszámítása
Számítási bonyolultság
Szabálygenerálás
Megbízhatóságon alapuló nyesés
Szabálygenerálás az Apriori algoritmussal
Példa: kongresszusi szavazási jegyzék
Gyakori elemhalmazok tömör reprezentációja
Maximális gyakori elemhalmaz
Zárt gyakori elemhalmazok
Alternatív módszerek gyakori elemhalmazok előállítására
Az FP-bővítés algoritmus
FP-fa reprezentáció
Gyakori elemhalmazok előállítása az FP-bővítés algoritmussal
Az asszociációs mintázatok kiértékelése
Objektív érdekességi mértékek
A bináris változópárokon túlmutató mértékek
Simpson paradoxona
A támogatottság aszimmetrikus eloszlásának hatása
Irodalmi megjegyzések
Feladatok
7. Asszociációs elemzés: Magas szintű fogalmak
Kategorikus attribútumok kezelése
Folytonos attribútumok kezelése
Diszkretizálás-alapú módszerek
Statisztikán alapuló módszerek
Nem diszkretizálási módszerek
Fogalomhierarchiák kezelése
Szekvenciális mintázatok
A probléma megfogalmazása
Szekvenciális mintázatok feltárása
Időbeli megszorítások
Különböző számítási sémák
Részgráf mintázatok
Gráfok és részgráfok
Gyakori részgráfok bányászata
Apriori-szerű módszer
Jelöltgenerálás
A jelöltek nyesése
A támogatottság kiszámítása
Ritka mintázatok
Negatív mintázatok
Negatívan korrelált mintázatok
A ritka mintázatok, a negatív mintázatok és a negatívan korrelált mintázatok összehasonlítása
Az érdekes ritka mintázatok bányászatának módszerei
Negatív mintázatok bányászatán alapuló módszerek
Várható támogatottságon alapuló módszerek
Irodalmi megjegyzések
Feladatok
8. Klaszteranalízis: Alapvető fogalmak és algoritmusok
Áttekintés
Mit nevezünk klaszteranalízisnek?
A klaszterezés különböző típusai
A klaszterek különböző típusai
K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaGqadabaaaaaaaaapeGaa83saaaa@36E2@ -közép módszer
Az alapvető K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaGqadabaaaaaaaaapeGaa83saaaa@36E2@ -közép algoritmus
K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaGqadabaaaaaaaaapeGaa83saaaa@36E2@ -közép módszer: további kérdések
Kettéosztó K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaGqadabaaaaaaaaapeGaa83saaaa@36E2@ -közép módszer
K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaGqadabaaaaaaaaapeGaa83saaaa@36E2@ -közép módszer és klaszterek különböző típusai
Erősségek és gyengeségek
A K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaGqadabaaaaaaaaapeGaa83saaaa@36E2@ -közép módszer, mint optimalizációs feladat
Összevonó hierarchikus klaszterezés
Alapvető összevonó hierarchikus klaszterező algoritmus
Különleges módszerek
A Lance-Williams formula a klaszterviszony meghatározásához
A hierarchikus klaszterezés legfontosabb kérdései
Előnyök és hátrányok
DBSCAN
Hagyományos sűrűség: a központ-alapú szemlélet
A DBSCAN algoritmus
Előnyök és hátrányok
Klaszter kiértékelés
Áttekintés
Felügyelet nélküli klaszterértékelés kohézió és elkülönülés segítségével
Felügyelet nélküli klaszter kiértékelés a szomszédsági mátrix segítségével
A hierarchikus klaszterezés felügyelet nélküli kiértékelése
A klaszterek helyes számának megállapítása
Klaszterezhetőség
A klaszter érvényesség felügyelt mértékei
A klaszter érvényességi mértékek szignifikanciájának értékelése
Irodalmi megjegyzések
Feladatok
9. Klaszteranalízis: További kérdések és algoritmusok
Az adatok, klaszterek és klaszterező algoritmusok jellemzői
Példa: a K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaGqadabaaaaaaaaapeGaa83saaaa@36E2@ -közép és DBSCAN összehasonlítása
Adatjellemzők
Klaszterjellemzők
A klaszterező algoritmusok általános jellemzői
Ütemterv
Prototípus-alapú klaszterezés
Fuzzy klaszterezés
Klaszterezés keverék modellekkel
Önszervező hálók (SOM)
Sűrűség-alapú klaszterezés
Rács-alapú klaszterezés
Altér klaszterezés
DENCLUE: egy magfüggvény alapú séma sűrűség-alapú klaszterezésre
Gráf-alapú klaszterezés
Ritkítás
Minimális feszítőfa klaszterezés
OPOSSUM: ritka hasonlóságok optimális particionálása a METIS segítségével
Chameleon: hierarchikus klaszterezés dinamikus modellezéssel
A közös legközelebbi szomszéd hasonlóság
A Jarvis-Patrick klaszterező algoritmus
SNN sűrűség
SNN sűrűség-alapú klaszterezés
Skálázható klaszterező algoritmusok
Skálázhatóság: általános kérdések és megközelítések
BIRCH
CURE
Mintavétel a CURE-ban
Melyik klaszterező algoritmust válasszuk?
Irodalmi megjegyzések
Feladatok
10. Rendellenességek észlelése
Bevezető
Rendellenességek okai
Rendellenességek észlelésének módszerei
Osztálycímkék használata
Kérdések
Statisztikai megközelítések
Kiugró értékek észlelése egydimenziós normális eloszlásnál
Kiugró értékek a többdimenziós normális eloszlásnál
Keverék modell módszer rendellenesség észlelésre
Erősségek és gyengeségek
Szomszédság-alapú kiugró érték észlelés
Erősségek és gyengeségek
Sűrűség-alapú kiugró érték észlelés
Relatív sűrűség alapú kiugró érték észlelés
Erősségek és gyengeségek
Klaszterezés-alapú eljárások
Az objektumok klaszterhez tartozási mértékének megállapítása
A kiugró értékek hatása a kezdeti klaszterezésre
A használandó klaszterek száma
Erősségek és gyengeségek
Irodalmi megjegyzések
Feladatok
A. A Lineáris algebra
Vektorok
Definíció
Vektorok összeadása és skalárral való szorzása
Vektorterek
Belső szorzat, merőlegesség és merőleges vetítés
Vektorok és adatelemzés
Mátrixok
Definíciók
Mátrixok összeadása és skalárral való szorzása
Mátrixok szorzása
Lineáris transzformációk és inverz mátrixok
Sajátérték és szinguláris érték felbontás
Mátrixok és adatelemzés
Irodalomi megjegyzések
B. Dimenziócsökkentés
PCA és SVD
Főkomponens analízis (PCA)
SVD
További dimenziócsökkentési módszerek
Faktoranalízis
Lokális lineáris beágyazás (LLE)
Többdimenziós skálázás (MDS), FastMap és ISOMAP
Közös szempontok
Irodalmi megjegyzések
C. Valószínűségszámítás és statisztika
Valószínűség
Várható érték
Statisztika
Pontbecslés
A központi határeloszlás-tétel
Intervallumbecslés
Hipotézisvizsgálat
D. Regresszióanalízis
Előzetes fogalmak
Egyszerű lineáris regresszió
A regresszió hibájának vizsgálata
Az illeszkedés hibája
Többváltozós lineáris regresszió
Alternatív legkisebb négyzetes regressziós módszerek
E. Optimalizáció
Feltétel nélküli optimalizálás
Numerikus módszerek
Feltételes optimalizálás
Egyenletekkel adott feltételek
Egyenlőtlenségekkel adott feltételek
F. Irodalomjegyzék

Az ábrák listája

1.1. Az adatbázisokban végzett tudásfeltárás (KDD) folyamata
1.2. Az adatbányászat mint több tudományág egyesülése
1.3. Négy alapvető adatbányászati feladat
1.4. Szirom szélesség a szirom hosszúság függvényében a 150 írisz virágra
2.1. Szakaszok hosszának mérése két különböző mérési skálán
2.2. Különböző variációk rekord típusú adatokra
2.3. Különböző variációk gráfadatokra
2.4. Különböző variációk rendezett adatokra
2.5. Zaj idősoros környezetben
2.6. Zaj térbeli környezetben
2.7. Az évi SST adatok páronkénti korrelációja. A fehér területek pozitív korrelációt jeleznek, a fekete területek pedig negatív korrelációt.
2.8. Hisztogramok az Ausztráliában mért havi és éves csapadékmennyiségek szórásaira az 1982-től 1993-ig terjedő időszakra
2.9. Példa a felépítés elvesztésére mintavétel hatására
2.10. Reprezentatív pontok keresése 10 csoportból
2.11. Egy jellemző részhalmaz kiválasztási folyamat folyamatábrája
2.12. A Fourier transzformáció idősor adatokban történő alkalmazása frekvenciák azonosítására
2.13. Különböző diszkretizálási módszerek
2.14. Az x és y attribútumok diszkretizálása pontok négy csoportjára (osztályára)
2.15. A koszinusz mérték geometriai ábrázolása
2.16. A koszinusz mérték geometriai ábrázolása
2.17. Korrelációt szemléltető pontdiagramok -1-től 1-ig
2.18. A Bregman divergencia szemléltetése
2.19. Kétdimenziós pontok halmaza. A két, nagy pöttyökkel jelzett pont közötti Mahalanobis távolság 6, míg euklideszi távolságuk 14,7.
2.20. Grafikonok a 20. feladathoz (a) Az euklideszi távolság és a koszinusz mérték kapcsolata (b) Az euklideszi távolság és a korreláció kapcsolata
3.1. Iris Virginica. Robert H. Mohlenbrock, Amerikai Egyesült Államok Mezőgazdasági Részlege, A Természeti Erőforrások Megőrzéséért, Növény-adatbázis (USDA-NRCS PLANTS Db.), 1995. Az északkeleti lápvidék növényvilága: Hivatalos útmutatás a fajok ültetéséhez. Északkeleti Nemzeti Technikai Központ, Chester, Pennsylvania, USA. A háttér eltávolítva.
3.2. A tengerfelszín hőmérséklete (SST -- Sea Surface Temperature) 1982 júliusában
3.3. Egy gráf két különböző ábrázolása
3.4. Csészelevelek hosszai az Irisz-adatállományban
3.5. A csészelevelek hosszának ág-levél diagramja az Írisz-adatállományra
3.6. A csészelevelek hosszának ág-levél diagramja az Írisz-adatállományra felosztott ágakkal
3.7. A négy Írisz-attribútum hisztogramja (10 dobozzal)
3.8. A négy Írisz-attribútum hisztogramja (20 dobozzal)
3.9. Az Írisz-adatok sziromlevelei hosszát illetve szélességét mutató kétdimenziós hisztogram
3.10. A csészelevél hosszának dobozábrája
3.11. Az Írisz attribútumainak dobozábrája
3.12. Az attribútumok dobozábrái az írisz fajtája szerint
3.13. Az íriszvirágok típusainak eloszlása
3.14. A négy Írisz attribútum emprikus eloszlásfüggvénye
3.14. A négy Írisz attribútum emprikus eloszlásfüggvénye
3.15. A csésze- ill. sziromlevél hosszának és szélességének percentilisdiagramjai
3.16. Az Írisz-adatállomány pontdiagram-mátrixa
3.17. A csészelevél hosszának és szélességének, valamint a sziromlevél szélességének háromdimenziós pontdiagramja
3.18. A pontdiagramon a sziromlevél hosszának és szélességének függvényében ábrázolt markerek mérete a csészelevél szélességét mutatja
3.19. Az 1998 decemberében mért tengerfelszíni hőmérséklet kontúrdiagramja
3.20. 12 pontból álló halmaz sűrűsége
3.21. A 3.20. ábrán látható, két alsó csúcs sűrűségének változása vektormező-diagramon
3.22. A tengerszinti nyomás havi diagramjai az 1982. év 12 hónapjában
3.23. Az Írisz adatmátrix-diagramja, ahol az oszlopok úgy vannak standardizálva, hogy az átlaguk 0, a szórás 1 legyen
3.24. Az Írisz korrelációs mátrixának ábrája
3.25. A négy Írisz-attribútum párhuzamos koordináták diagramja
3.26. A négy Írisz-attribútum párhuzamos koordináták diagramja, ahol az attribútumok sorrendjének megváltoztatásával hangsúlyosabbá tettük a csoportok hasonlóságát illetve különbözőségét
3.27. Az Írisz-adathalmazból származó 150 virág csillagkoordináta és Chernoff-arc diagramja
3.28. 15 íriszvirág csillagkoordináta diagramja
3.29. 15 íriszvirág Chernoff-arc diagramja
3.30. Az Írisz-adatok többdimenziós ábrázolása
3.31. Az eladási adatok többdimenziós reprezentációja
4.1. Galaxisok osztályozása. A képek a NASA honlapjáról származnak.
4.2. Az osztályozás mint bemeneti attribútumértékek egy x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ halmazának az y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ osztálycímkéjébe való leképezésének a feladata
4.3. Egy osztályozási modell kialakításának általános megközelítése
4.4. Az emlős osztályozási feladat döntési fája
4.5. Egy címkézetlen gerinces osztályozása. A szaggatott vonalak a címkézetlen gerincesre alkalmazott különböző attribútum tesztfeltételek kimenetelét jelölik. A gerincest végül a Nem-emlős osztályhoz rendeljük.
4.6. Azon hitelfelvevők előrejelzésének tanulóhalmaza, akik késedelembe esnek a hitel visszafizetésében
4.7. Hunt algoritmusa döntési fa következtetésre
4.8. Tesztfeltételek bináris attribútumokra
4.9. Tesztfeltételek névleges attribútumokra
4.10. Sorrendi attribútumértékek csoportosításának különböző módjai
4.11. Tesztfeltételek folytonos attribútumok esetén
4.12. Többágú és bináris vágás összehasonlítása
4.13. A szennyezettségi mértékek összehasonlítása bináris osztályozási feladatoknál
4.14. Bináris attribútumok vágása
4.15. Névleges attribútumok vágása
4.16. Folytonos attribútumok vágása
4.17. A web-robot észlelés input adatai
4.18. Web-robot észlelés döntési fa modellje
4.19. A fa ismétlődési probléma. Ugyanaz a részfa több ágon is megjelenhet.
4.20. Egy példa döntési fára és döntési határára kétdimenziós adatállomány esetén
4.21. Példa olyan adatállományra, amely nem particionálható optimálisan egyetlen attribútumot bevonó tesztfeltételek használatával
4.22. Példa adatállományra bináris osztályokkal
4.23. Tanítási és tesztelési hibaarányok
4.24. Különböző modell bonyolultságú döntési fák
4.25. A 4.3. táblázatbeli adatállomány által indukált döntési fa
4.26. A 4.5. táblázatbeli adatállomány által indukált döntési fa
4.27. Példa azonos tanulóadatokból előállított két döntési fára
4.28. A minimális leíró hossz (MDL) elv
4.29. A döntési fa utómetszése web-robot észlelésnél
4.30. A 8. feladathoz tartozó adatállományok és döntési fa
2.2. A 9. feladat döntési fája
5.1. Szabályalapú és osztályalapú rendezési séma összehasonlítása
5.2. Példa a szekvenciális lefedési algoritmusra
5.3. Specializáló és általánosító szabályépítési stratégia
5.4. Tanulórekordok eltávolítása a szekvenciális algoritmussal. R1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOuaiaaigdaaaa@379C@ , R2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOuaiaaikdaaaa@379D@ és R3 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOuaiaaiodaaaa@379E@ három különböző szabály által lefedett régiókat reprezentálnak.
5.5. Döntési fa osztályozási szabályokká alakítása
5.6. A gerincesek osztályozási feladatához készített döntési fából kinyert szabályok
5.7. Egy példány 1-, 2- és 3-legközelebbi szomszédja
5.8. k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Aaaaa@36FA@ -legközelebbi szomszéd osztályozás nagy k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Aaaaa@36FA@ esetén
5.9. Tanulóhalmaz a hitel vissza nem fizetési probléma prediktálásához
5.10. Naiv Bayes-féle osztályozó a hitel osztályozási problémához
5.11. Krokodil és aligátor likelihood-függvényének összehasonlítása
5.12. Valószínűségi kapcsolatok reprezentálása irányított körmentes gráfok segítségével
5.13. Bayes-féle bizonyosságháló szívbaj és gyomorégés felismeréséhez betegeknél
5.14. Logikai függvény modellezése perceptronnal
5.15. Perceptron döntési határ az 5.14. ábrán látható adatokhoz
5.16. XOR osztályozási probléma. Egyetlen hipersík sem képes a két osztályt szeparálni.
5.17. Példa többrétegű előrecsatolt mesterséges neurális hálóra
5.18. Aktivációs függvények típusai mesterséges neurális hálókban címe
5.19. Kétrétegű előrecsatolt neurális hálózat az XOR problémához
5.20. Egy kétparaméteres modell E( w 1 , w 2 ) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyraiaacIcacaWG3bWdamaaBaaaleaapeGaaGymaaWdaeqaaOWdbiaacYcacaWG3bWdamaaBaaaleaapeGaaGOmaaWdaeqaaOWdbiaacMcaaaa@3D34@ hibafelülete
5.21. Lehetséges döntési határok lineárisan szeparálható adatok esetén
5.22. Döntési határ margója
5.23. SVM döntési határa és margója
5.24. Példa lineárisan szeparálható adatokra
5.25. SVM döntési határa a nem szeparálható esetre
5.26. Kiegészítő változók nem szeparálható adatokra
5.27. Döntési határ, amelynek széles a margója, de nagy a tanulóhalmazon mért hibája
5.28. Adatok osztályozása nemlináris döntési határral
5.29. Polinomális kernelű nemlineáris SVM által létrehozott döntési határ
5.30. Az alaposztályozók hibái és az együttes osztályozó hibái közötti összehasonlítás
5.31. Az együttes tanulási módszer egy logikai nézete
5.32. Torzítás-variancia felbontás
5.33. Induktív tanulással ugyanazokból a tanulóadatokból létrehozott két külöböző bonyolultságú döntési fa
5.34. Döntési fa és 1-legközelebbi szomszéd osztályozó torzítása
5.35. Példa zsákolásra
5.36. Példa a zsákolási módszer segítségével alkotott osztályozók kombinálására
5.37. α MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacqaHXoqyaaa@3359@ ábrázolása az ε MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacqaH1oqzaaa@3361@ tanulóhalmazon vett hiba függvényeként
5.382. Példa gyorsításra
5.39. Példa az AdaBoost módszer segítségével alkotott osztályozók kombinálására
5.40. Véletlen erdők
5.41. Két különböző osztályozó ROC-görbéje
5.42. ROC-görbe alkotása
5.43. ROC-görbe az 5.42. ábrán látható adatokhoz
5.44. Döntési határ módosítása (B1-ről B2-re) egy osztályozó hamis negatív hibáinak csökkentéséhez
5.45. A ritka osztály túlmintavételezésének hatásának szemléltetése
5.46. Adatok a 9. feladathoz
5.47. Bayes-féle bizonyosságháló
5.48. Bayes-féle bizonyosságháló a 12. feladathoz
5.49. Adatok a 23. feladathoz
6.1. Egy elemhalmazháló.
6.2. Elemhalmazjelöltek támogatottságának a kiszámítása
6.3. Az apriori-elv szemléltetése. Ha {c, d, e} gyakori, akkor ezen elemhalmaz összes részhalmaza is gyakori.
6.4. A támogatottság alapú nyesés szemléltetése. Ha {a,b} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaadggacaGGSaGaamOyaiaac2haaaa@3A87@ nem gyakori, akkor {a,b} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaadggacaGGSaGaamOyaiaac2haaaa@3A87@ egyetlen szuperhalmaza sem gyakori.
6.5. Gyakori elemhalmazok előállítása az Apriori algoritmussal
6.6. 3-elemhalmazjelöltek előállítása a nyers erő módszerével
6.7. k-elemhalmazjelöltek előállítása és nyesése gyakori (k − 1)-elemhalmazok és gyakori elemek párosításával. Megjegyezzük, hogy néhány jelölt felesleges a nem gyakori részhalmazok miatt.
6.8. k-elemhalmazjelöltek előállítása és nyesése gyakori (k − 1)-elemhalmazpárok egyesítésével
6.9. A t tranzakció három elemet tartalmazó részhalmazainak felsorolása
6.10. Elemhalmazok támogatottságának a kiszámítása hasítóstruktúra segítségével
6.11. Tranzakció szétosztása egy hasítófa gyökércsúcsánal
6.12. Részhalmaz művelet egy jelölteket tartalmazó hasítófa gyökerének bal szelső részfáján
6.13. A támogatottsági küszöbérték hatása az elemhamazjelöltek és gyakori elemhalmazok számának alakulására
6.14. Effect of average transaction width on the number of candidate and frequent itemsets.
6.15. Asszociációs szabályok nyesése a megbízhatósági mérték alapján.
6.16. Maximális gyakori elemhalmaz
6.17. Példa zárt gyakori elemhalmazokra (a minimális támogatottsági szint 40%)
6.18. A gyakori, maximálisan gyakori és zárt gyakori elemhalmazok közötti kapcsolatok
6.19. Specializáción alapuló, általánosító és kétirányú keresés
6.20. Az elemhalmazok elő- és utótagjain alapuló ekvivalencia-osztályok
6.21. Szélességi és mélységi bejárás
6.22. Elemhalmazjelölt ek előállítása mélységi kereséssel
6.23. Vízszintes és függőleges adatformátumok
6.24. Egy FP-fa felépítése.
6.25. A 6.24. ábrán látható adathalmaz FP-fa reprezentációja az elemek eltérő rendezése mellett
6.26. A gyakori elemhalmaz ok előállításának problémája több részproblémára felosztva. Az egyes részproblémák az e MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyzaaaa@36F4@ , d MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaaaa@36F3@ , c MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4yaaaa@36F2@ , b MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOyaaaa@36F1@ és a MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyyaaaa@36F0@ végződésű gyakori elemhalmaz okat keresik meg.
6.27. Az e MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyzaaaa@36F4@ -re végződő gyakori elemhalmaz ok megtalálása az FP-bővítés algoritmus sal
6.28. Az inverzió művelet hatása. A C MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4qaaaa@36D2@ és E MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyraaaa@36D4@ vektorokat az A MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyqaaaa@36D0@ vektor, míg a D MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiraaaa@36D3@ vektort a B MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOqaaaa@36D1@ és F MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOraaaa@36D5@ vektorok invertálásával kaptuk
6.29. Elemek támogatottság szerinti eloszlása a népszámlálási adathalmazban
6.30. Egy három elemet (p, q es r) tartalmazó tranzakciós adathalmaz,ahol p magas, q és r pedig alacsony támogatottságú elemek
6.31. Az asszociációs elemzéshez kapcsolódó különböző kutatási tevékenységek összefoglalója
6.32. Példa egy hasítófa struktúrára
6.33. Egy elemhalmazháló
6.34. Ábrák a 14. feladathoz
7.1. Tortadiagram egyesített Egyéb kategóriával
7.2. Példa elemek egy taxonómiájára
7.3. Példa szekvenciális adatbázisra
7.4. Példák szekvenciális adatok elemeire és eseményeire
7.5. Egy öt adatsorozatot tartalmazó adatállományból származtatott szekvenciális mintázatok
7.6. Példa a szekvenciális mintázatokat bányászó algoritmus jelöltgenerálási és nyesési lépéseire
7.7. Egy szekvenciális mintázat időbeli megszorításai
7.8. Különböző támogatottság kiszámítási módszerek összehasonlítása
7.9. Példa részgráfra
7.10. Egy részgráf támogatottságának kiszámítása gráfok egy halmazára
7.11. Nyers erőn alapuló módszer gyakori részgráfok bányászatára
7.12. Gráfszerkezetek egy halmazának leképezése bevásárlókosár tranzakciókra
7.13. Csúcsnöveléses stratégia
7.14. Élnöveléses stratégia
7.15. Topológiailag ekvivalens csúcsok szemléltetése
7.16. Általános módszer két részgráf élnöveléssel történő egyesítésére
7.17. Élnöveléssel generált részgráf jelöltek
7.18. A jelöltek multiplicitása a jelöltgenerálás során
7.19. Gráfizomorfizmus
7.20. Egy gráf szomszédsági mátrix reprezentációja
7.21. Szomszédsági mátrixok sztring reprezentációja
7.22. A ritka mintázatok, a negatív mintázatok és a negatívan korrelált mintázatok összehasonlítása
7.23. Gyakori és ritka elemhalmazok
7.24. Adatállományok kiegészítése negatív elemekkel
7.52. Példa fogalomhierarchiára
7.26. Érdekes negatív mintázatok bányászata fogalomhierarchia felhasználásával
7.27. Két elem közötti indirekt asszociáció
7.28. Gráfok a 16. feladathoz
7.29. Gráfok a 17. feladathoz
8.1. Ugyanazon pontok különböző klaszterezései
8.2. Különböző típusú klaszterek kétdimenziós pontokkal szemléltetve
8.3. Három klaszter keresése a K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép algoritmussal a mintaadatokban
8.4. Három optimális és nem-optimális klaszter
8.5. Rossz kezdő középpontok a K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép módszer számára
8.6. Két klaszterpár klaszterenként egy kezdő középponttal
8.7. Két klaszterpár az egyik párnál kettőnél több, a másiknál kevesebb kezdő középponttal
8.8. A kettéosztó K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép módszer a négy klaszteres példára
8.9. K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép módszer különböző méretű klaszterekkel
8.10. K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép módszer különböző sűrűségű klaszterekkel
8.11. K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép módszer nem gömb alakú klaszterekkel
8.12. Természetes klaszterek alklasztereinek keresése K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép módszerrel
8.13. Négy pont hierarchikus klaszterezése dendrogramon és skatulyázott klaszterdiagrammon ábrázolva
8.14. Gráfalapú klaszter-közelség definíciók
8.15. 6 kétdimenziós pont halmaza
8.16. A 8.15. ábrán látható pontok klaszterezése egyszerű kapcsolású módszerrel
8.17. A 8.15. ábrán látható pontok klaszterezése teljes kapcsolás módszerrel
8.18. A 8.15. ábrán látható pontok klaszterezése csoportátlag módszerrel
8.19. A 8.15. ábrán látható pontok klaszterezése Ward módszerével
8.20. Középpont-alapú sűrűség
8.21. Belső, határ-, illetve zajos pontok
8.22. Mintaadatok
8.23. A mintaadatok K-táv értékének grafikonja
8.24. Négy klaszter zajba ágyazva
8.25. 3000 kétdimenziós pont DBSCAN klaszterezése
8.26. 100 egyenletes eloszlású pont klaszterezése
8.27. A klaszter kohézió és elkülönülés gráf-alapú nézete
8.28. A klaszter kohézió és elkülönülés prototípus-alapú nézete
8.29. Sziluett együtthatók tíz klaszter pontjaira
8.30. Hasonlósági mátrix jól elkülönülő klaszterekhez
8.31. Véletlen adatokon létrehozott klaszterek hasonlósági mátrixai
8.32. Az SSE értéke a klaszterek számának függvényében a 8.29. ábra adataira
8.33. Az átlagos sziluett együttható értéke a klaszterek számának függvényében a 8.29. ábra adataira
8.34. 500 véletlen adathalmaz SSE hisztogramja
8.35. A 2. feladathoz tartozó pontok
8.36. Az 5. feladathoz tartozó klaszterek
8.37. A 6. feladathoz tartozó diagramok
8.38. Voronoi diagram 1m. feladathoz
8.39. A 20. feladathoz tartozó ábra
8.40. Hierarchikus klaszterezés a 25. feladathoz
8.41. Pontok és hasonlósági mátrixok a 32. feladathoz
9.1. Egy kétdimenziós ponthalmaz fuzzy c MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4yaaaa@36F2@ -közép klaszterezése
9.2. Keverék modell két normális eloszlásból, ahol a várható értékek 4 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOeI0IaaGinaaaa@37B5@ , illetve 4. Mindkét eloszlás szórása 2.
9.3. Egy Gauss eloszlásból származó 200 pont és valószínűségük logaritmusa különböző paraméterértékekre
9.4. EM klaszterezés három klaszterből álló kétdimenziós ponthalmazra
9.5. EM klaszterezés két különböző sűrűségű klaszterből álló kétdimenziós ponthalmazra
9.6. Kétdimenziós ponthalmaz klaszterezése keverék modell és K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép módszerrel
9.7. Kétdimenziós 3×3 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaG4maiabgEna0kaaiodaaaa@399B@ -as négyzetrácsos SOM neurális háló
9.8. A Los Angeles Times cikkeiből álló adathalmaz SOM klaszterei közötti kapcsolatok megjelenítése
9.9. A SOM alkalmazása kétdimenziós adatpontokra
9.10. Rács-alapú sűrűség
9.11. Példa ábrák az altér klaszterezéshez
9.12. Pontok x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ attribútumának eloszlását mutató hisztogram
9.13. A DENCLUE sűrűségfogalmak szemléltetése egydimenzióban
9.14. Példa a Gauss hatásfüggvényre (magfüggvényre) és egy teljes sűrűségfüggvényre
9.15. A ritkításon alapuló klaszterezés elméleti folyamata
9.16. Minimális feszítőfa egy hatelemű kétdimenziós ponthalmazra
9.17. Olyan helyzet, ahol nem a közelség a megfelelő egyesítési kritérium ( © MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeyQaaaa@3736@ 1999, IEEE)
9.18. A relatív közelség szemléltetése ( © MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeyQaaaa@3736@ 1999, IEEE)
9.19. A relatív összekapcsoltság szemléltetése ( © MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeyQaaaa@3736@ 1999, IEEE)
9.20. A Chameleon klaszterezési folyamatának egésze ( © MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeyQaaaa@3736@ 1999, IEEE)
9.21. A Chameleon alkalmazása két kétdimenziós ponthalmaz klaszterezésére ( © MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeyQaaaa@3736@ 1999, IEEE)
9.22. Két kör alakú, 200 egyenletes eloszlású pontból álló klaszter
9.23. Az SNN hasonlóság kiszámítása két pont között
9.24. Egy kétdimenziós ponthalmaz Jarvis-Patrick klaszterezése
9.25. Kétdimenziós pontok SNN sűrűsége
9.26. Nyomás idősor SNN sűrűség-alapú klaszterezéssel talált klaszterei
9.27. A nyomás idősor SNN sűrűségei
9.28. Adatok 1l. feladathoz. Két különböző sűrűségű klasztert tartalmazó kétdimenziós ponthalmaz EM klaszterezése.
10.1. A 0 várható értékű és 1 szórású Gauss-eloszlás valószínűségi sűrűségfüggvénye
10.2. A 10.3. ábra pontjainak előállitásához használt Gauss-eloszlás valószínűségi sűrűsége
10.3. Pontok Mahalanobis távolsága 2002 kétdimenziós pont középpontjától
10.4. Kiugró érték pontszám az ötödik legközelebbi szomszédtól vett távolság alapján
10.5. Kiugró érték pontszám az első legközelebbi szomszédtól vett távolság alapján. A közeli kiugró értékek kis kiugró érték pontszámúak.
10.6. Kiugró érték pontszám az ötödik legközelebbi szomszédtól vett távolság alapján. Egy kis klaszter kiugróvá válik.
10.7. Kiugró érték pontszám az ötödik legközelebbi szomszédtól vett távolság alapján. Különböző sűrűségű klaszterek.
10.8. Relatív sűrűség (LOF) alapú kiugró érték pontszámok a 10.7. ábra kétdimenziós pontjaira
10.9. Pontok távolsága a legközelebbi centroidtól
10.10. Pontok relatív távolsága a legközelebbi centroidtól
A.1. Két vektor, valamint ezek összege és különbsége
A.2. v MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCODaaaa@3709@ merőleges vetülete u MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyDaaaa@3708@ irányában
B.1. PCA használata adattranszformációhoz
B.2. PCA a nőszirom adathalmazára alkalmazva
B.3.. A Los Angeles Times sport- és üzleti rovata cikkeinek pontábrája a második és harmadik szinguláris érték figyelembevételével
B.4.. A virágok adatainak ábrája egyetlen látens faktorra vonatkozóan
B.5. Az íriszek adatállományának LLE algoritmuson alapuló, két jellemzős ábrázolása
B.6. Swiss roll adathalmaz
B.7. Az íriszek adatainak pontábrája az ISOMAP két új jellemzőjének koordinátarendszerében
C.1. Egy paraméter konfidencia-intervalluma
D.1. Hőmérséklet és hőfluxus mérése egy személyen
D.2. Egy lineáris modell, mely illeszkedik fig_app:skin_heat_data. ábrán adott adatokra
E.1. Egy függvény stacionárius pontjai
E.2. Az f(x,y)=3 x 2 +2 y 3 2xy MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOzaiaacIcacaWG4bGaaiilaiaadMhacaGGPaGaeyypa0JaaG4maiaadIhapaWaaWbaaSqabeaapeGaaGOmaaaakiabgUcaRiaaikdacaWG5bWdamaaCaaaleqabaWdbiaaiodaaaGccqGHsislcaaIYaGaamiEaiaadMhaaaa@461E@ függvény grafikonja
E.3. Példa egy unimodális függvényre

A táblázatok listája

1.1. Vásárlói kosár adatok
1.2. Újságcikkek egy gyűjteménye
2.1. Hallgatói információkat tartalmazó minta adatállomány
2.4. Ügyfelek vásárlásainak adatait tartalmazó adatállomány
2.5. Egy kategorikus attribútum konverziója három bináris attribútumra
2.6. Egy kategorikus attribútum konverziója öt aszimmetrikus bináris attribútumra
2.8. A négy pont x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ koordinátái
2.9. Euklideszi távolsági mátrix a 2.8. táblázathoz
2.10. L1 távolsági mátrix a 2.8. táblázathoz
2.11. L MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaqGmbWaaSbaaSqaaiabg6HiLcqabaaaaa@3426@ távolsági mátrix a 2.8. táblázathoz
3.1. Egy feltételezett főiskola hallgatóinak évfolyamonkénti létszáma
3.2. A csésze- és sziromlevelek hosszának és szélességének adatai centiméterben mérve
3.3. A csésze- ill. sziromlevél hosszainak ill. szélességeinek átlaga és mediánja centiméterben kifejezve
3.4. A csésze- ill. sziromlevél hosszának ill. szélességének terjedelme, standard eltérése vagy szórása (std -- standard deviation), átlagos abszolút eltérése (AAD -- absolute average difference), medián abszolút eltérése (MAD -- median absolute difference) és interkvartilis terjedelme (IQR -- interquartile range) centiméterben kifejezve
3.5. Kilenc objektumot (sorok) és hat bináris attribútumot (oszlopok) tartalmazó tábla
3.6. Kilenc objektumot (sorok) és hat bináris attribútumot (oszlopok) tartalmazó tábla, amelyben a sorok és az oszlopok eredeti sorrendjének felcserélésével láthatóvá válik a sorok és oszlopok közötti kapcsolat
3.7. Az íriszek darabszáma három attribútum (sziromlevél hossza és szélessége illetve fajtája) kombinációja által meghatározott csoportok szerinti megoszlásban
3.8. A Setosa fajtához tartozó íriszek kontingenciatáblája a sziromlevél hossza és szélessége szerint
3.9. A Versicolor fajtához tartozó íriszek kontingenciatáblája a sziromlevél hossza és szélessége szerint
3.10. A Virginica fajtához tartozó íriszek kontingenciatáblája a sziromlevél hossza és szélessége szerint
3.11. A termékek különböző helyszíneken és időpontokban történt eladásaiból származó bevételek (dollárban)
3.12. A helyszínek rögzített időpont és termék szerinti összbevétele
3.13. A 3.12. táblázat adatai marginális összegekkel kiegészítve
3.14. Ténytábla 16. feladathoz
4.1. A gerincesek adatállománya
4.2. Egy kétosztályos feladat tévesztési mátrixa
4.3. Egy példa tanulóhalmaz az emlősök osztályozására. Csillagozott osztálycímkék jelölik a tévesen címkézett rekordokat.
4.4. Egy példa teszthalmaz az emlősök osztályozására
4.5. Egy példa tanítóhalmaz az emlősök osztályozására.
4.6. A t MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiDaaaa@3703@ -eloszlás valószínűségi táblázata
4.7. A 2. feladathoz tartozó adatállomány
4.8. A 3. feladathoz tartozó adatállomány
4.9. Különböző osztályozási módszerek pontosságának az összehasonlítása
5.1. Példa a gerincesek osztályozási feladatának szabályhalmazára
5.2. A gerincesek adatai
5.3. Példa kölcsönösen kizáró és kimerítő szabályhalmazra
5.4. Példa zsákoló osztályozók egy együttesének építéséhez felhasznált adatokra
5.5. Döntési fa osztályozó pontosságának összehasonlítása három együttes módszer ellenében. (Az utolsó oszlopban RF a véletlen erdőt jelenti.)
5.6. Tévesztési mátrix egy olyan bináris osztályozási problémához, amelynél az osztályok nem egyformán fontosak
5.7. Költségmátrix az 5.9. példához
5.8. Két osztályozási modell tévesztési mátrixa
5.8. Két osztályozási modell tévesztési mátrixa
5.9. Különböző szabályalapú osztályozók összehasonlítása
5.10. Adatok a 7. feladathoz
5.11. Adatok a 8. feladathoz
5.12. Adatok a 11. feladathoz
5.13. Adatok a 2. feladathoz
5.14. A posteriori valószínűségek a 17. feladathoz
6.1. Egy példa vásárlói kosár tranzakciókra
6.2. A bevásárlókosár adatok bináris ( 0/1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGimaiaac+cacaaIXaaaaa@3832@ ) reprezentációja
6.3. Az 1984-es amerikai kongresszusi szavazási jegyzék bináris attribútumainak listája. Forrás: UCI gépi tanulás adattára
6.4. Az 1984-es amerikai kongresszusi szavazási jegyzékből kinyert asszociációs szabály ok
6.5. Egy tranzakció s adathalmaz zárt elemhalmazok bányászatához
6.6. A gyakori elemhalmaz ok listája. Az elemhalmaz ok az utótagjaik alapján vannak rendezve .
6.7. Az A MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyqaaaa@36D0@ és B MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOqaaaa@36D1@ változók 2×2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGOmaiabgEna0kaaikdaaaa@3999@ -es kontingenciatáblázata
6.8. Italfogyasztási szokások egy 1000 fős csoportban
6.9. A { p MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiCaaaa@36FF@ , q MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyCaaaa@3700@ } és { r MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOCaaaa@3701@ , s MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Caaaa@3702@ } szópárok kontingenciatáblázatai
6.10. A p MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiCaaaa@36FF@ és q MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyCaaaa@3700@ elemek kontingenciatáblázata
6.11. Szimmetrikus objektív mértékek az {A,B} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaadgeacaGGSaGaamOqaiaac2haaaa@3A47@ elemhalmazra
6.12. Aszimmetrikus objektív mértékek az AB MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyqaiabgkziUkaadkeaaaa@3984@ szabályra
6.13. Példa kontingenciatáblázatokra
6.14. A kontingenciatáblázat ok rangsorolása a 6.11. táblázatban megadott szimmetrikus mértékek alapján
6.15. A kontingenciatáblázat ok rangsorolása a 6.12. táblázatban megadott aszimmetrikus mértékek alapján
6.16. Osztályzatok és nemek közti összefüggések
6.17. A szimmetrikus mértékek jellemzői
6.18. Példa háromdimenziós kontingenciatáblázatra
6.19. Kétdimenziós kontingenciatáblázat nagyfelbontású televíziók és edzőgépek eladásáról
6.20. # Példa háromdimenziós kontingenciatáblázatra
6.21. A népszámlálási adathalmaz elemeinek a csoportosítása támogatottsági értékeik alapján
6.22. Bevásárlókosár tranzakciók
6.23. Bevásárlókosár tranzakciók
6.24. Példa bevásárlókosár tranzakciókra
6.25. Példa bevásárlókosár tranzakciókra
6.26. Egy kontingenciatáblázat
6.27. Kontingenciatáblázatok a 19. feladathoz
7.1. Internetes kérdőíves adatok kategorikus attribútumokkal
7.2. Internetes kérdőíves adatok a kategorikus és szimmetrikus bináris attribútumok binarizálása után
7.3. Internetes kérdőíves adatok folytonos attribútumokkal
7.4. Internetes kérdőíves adatok a kategorikus és folytonos attribútumok binarizálása után
7.5. Az online csevegésben résztvevő internet-felhasználók felosztása korcsoport szerint
7.6. Normalizált dokumentum-szó mátrix
7.7. Különböző alkalmazási területek egyedeinek gráfreprezentációja
7.8. Elemhalmazok és részgráfok számának összehasonlítása különböző d MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaaaa@36F3@ dimenziószámok esetén
7.9. Kétdimenziós kontingenciatáblázat az XY MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiwaiabgkziUkaadMfaaaa@39B2@ asszociációs szabályhoz
7.10. Közlekedési balesetek adatai
7.11. Adatállomány a 2. feladathoz
7.12. Adatállomány a 3. feladathoz
7.13. Adatállomány a 4. feladathoz
7.14. Adatállomány a 6. feladathoz
7.15. Példa vásárlói kosár tranzakciókra
7.16. Példa különböző érzékelők által generált eseménysorozatokra
7.17. Példa eseménysorozat adatokra a 14. feladathoz
7.18. Példa numerikus adatállományra
8.1. Jelölések táblázata
8.2. K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép: gyakori közelségi mértékek, középpontok és célfüggvények
8.3. A 6 pont xy MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaiaadMhaaaa@3805@ koordinátái
8.4. A 6 pont euklideszi távolság-mátrixa
8.5. Lance-Williams együtthatók táblázata általános hierarchikus klaszterező megközelítésekre
8.6. Gráf-alapú klaszter kiértékelési mértékek táblázata
8.7. Kofenetikus távolságmátrix az egyszerű kapcsolásra és a 8.3. táblázat adataira
8.8. Kofenetikus korrelációs együttható a 8.3. táblázat adataira és négy összevonó hierarchikus klaszterezési módszerre
8.9. Az LA Times dokumentum adathalmaz K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép klaszterezésének eredménye
8.10. Ideális klaszter hasonlósági mátrix
8.11. Ideális osztály hasonlósági mátrix
8.12. Kétirányú kontingenciatáblázat annak meghatározására, hogy az objektumpárok azonos osztályba és azonos klaszterbe esnek-e
8.13. Hasonlósági mátrix a 16. feladathoz
8.14. Tévesztési mátrix a 21. feladathoz
8.15. A klasztercímkék táblázata a 24. feladathoz
8.16. Hasonlósági mátrix a 24. feladathoz
9.1. Az EM algoritmus első néhány lépése az egyszerű példára
9.2. A pontok száma a rácscellákban
9.3. Hasonlóság egy újság különböző rovataiből származó dokumentumok között
9.4. Négy pont két legközelebbi szomszédai
10.1. (c,α) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaiikaiaadogacaGGSaGaeqySdeMaaiykaaaa@3A9A@ párok a 0 várható értékű és 1 szórású Gauss-eloszlásra, ahol α=P(|x|c) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqySdeMaeyypa0JaamiuaiaacIcacaGG8bGaamiEaiaacYhacqGHLjYScaWGJbGaaiykaaaa@4088@
1. Példák valószínűségi eloszlásokra ( Γ(n+1)=nΓ(n) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaae4KdiaacIcacaWGUbGaey4kaSIaaGymaiaacMcacqGH9aqpcaWGUbGaae4KdiaacIcacaWGUbGaaiykaaaa@406A@ és Γ(1)=1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaae4KdiaacIcacaaIXaGaaiykaiabg2da9iaaigdaaaa@3AF8@ )

Előszó

Az adatok előállításának és összegyűjtésének fejlődése nagy méretű adatállományokat hozott létre a kereskedelemben és a különböző tudományágakban. Adattárházak tárolják vásárlások és üzleti műveletek részleteit, a Föld körül keringő műholdak nagy felbontású képeket és érzékelők adatait sugározzák vissza a Földre, valamint a genetikai kísérletek egyre több élőlény szekvenciáit, strukturális és funkcionális adatait állítják elő. Az a könnyedség, amellyel napjainkban az adatokat gyűjteni és tárolni lehet, egy újfajta hozzáállást hozott létre az adatelemzésben: gyűjtsünk össze bármilyen adatot bármikor és bárhol, ahol csak lehetséges. Dogmává vált, hogy az összegyűjtött adatoknak értéke van, vagy abból a célból, amelyet összegyűjtésük kezdetben indokolt, vagy pedig előre még nem látottból.

Az adatbányászat területe az általános adatelemzési módszerek azon korlátaiból nőtt ki, amelyeket ezen új típusú adatállományok által felvetett kihívások kezelése jelentett. Az adatbányászat nem helyettesíti az adatelemzés más területeit, hanem inkább tevékenyége nagy részének alapjává teszi őket. Míg az adatbányászat egyes területei -- mint az asszociációs elemzés -- egyediek, más területeken -- mint a klaszterezés, az osztályozás és a rendellenesség-észlelés -- a munkának már hosszú története van. Valójában az adatbányászati kutatóknak a meglévő módszerekre való támaszkodási hajlandósága jelentősen hozzájárult a szakterület megerősödéséhez, elterjedéséhez és gyors növekedéséhez.

A terület egy másik erőssége a más területeken kutatókkal való együttműködésnek a hangsúlyozása. Nem lehet eleget tenni annak a kihívásnak, amelyet az új típusú adatok elemzése jelent, az adatelemzési módszereknek azoktól elszigetelten való egyszerű alkalmazásával, akik ismerik az adatokat és azt a területet, amelyből azok származnak. Gyakran a multidiszciplináris csoportok felépítésében való szakértelem vezet adatbányászati projektek sikeréhez és új, innovatív algoritmusok létrehozásához. Ahogy történetileg a statisztikában sok előrelépést a mezőgazdaság, az ipar, az orvostudomány és a gazdaság igénye vezérelt, az adatbányászatban jelenleg sok fejlesztést ugyanezeknek a területeknek az igénye hajt előre.

Jelen könyv azokból a jegyzetekből és előadás diákból nőtt ki, amelyek a Minnesotai Egyetem mester és diplomás hallgatói számára 1998 tavasza óta tartott adatbányászati kurzusra készültek. A bemutató diák és a feladatok ez alatt egyre nőttek az idővel és a könyv gerincét adták. Egy az adatbányászatban alkalmazott klaszterezési módszerekről szóló áttekintés, melyet eredetileg ezen a területen végzendő kutatásra való felkészüléskor készítettünk, szolgált a könyv egyik fejezetének kiindulópontjaként. Idővel a klaszterezési fejezet kiegészült az adatokról, az osztályozásról, az asszociációs elemzésről és a rendellenesség-keresésről szóló fejezetekkel. A könyvet jelenlegi formájában már teszteltük a gyakorlatban a szerzők intézményeiben -- a Minnesotai Egyetemen és a Michigani Állami Egyetemen -- csakúgy, mint számos más egyetemen.

Időközben számos adatbányászati könyv jelent meg, azonban ezek nem bizonyultak teljesen kielégítőnek a diákjaink számára, akik elsősorban számítógép-tudománnyal foglalkozó egyetemista és diplomás hallgatók, de van közöttük az iparból és számos más tudományágból érkező is. A matematikai és számítástechnikai hátterük igen eltérő volt, azonban osztoztak egy közös célban: az adatbányászatról akartak tanulni olyan közvetlenül, ahogy csak lehetséges, annak érdekében, hogy gyorsan alkalmazzák azt saját tudományáguk problémáinál. Így sokuknak közülük nem tetszettek az alapos matematikai vagy statisztikai előismereteket feltételező szövegek, ahogy azok sem, amelyek jelentős adatbázis hátteret igényeltek, vagy az algoritmusok leírására összpontosítottak. A könyv ezeknek a tanulóknak az igényeire válaszolva alakult ki, annyira közvetlenül a legfontosabb adatbányászati fogalmakra koncentrálva, amennyire ez csak lehetséges, a fogalmakat példákkal illusztrálva, az alapvető algoritmusokat egyszerűen leírva és gyakorlatokkal kiegészítve.

Áttekintés

A könyv kimondottan átfogó bevezetést kíván nyújtani az adatbányászatba, úgy lett megszerkesztve, hogy befogadható és hasznos legyen diákok, oktatók, kutatók és szakemberek számára. Az általa felölelt területek közé tartozik az adatok elő- és utófeldolgozása, a vizualizáció, a prediktív modellezés, az asszociációs elemzés, a klaszterezés és a rendellenesség-észlelés. A cél az alapvető fogalmak és algoritmusok bemutatása mindegyik téma esetén, így biztosítva az Olvasónak a szükséges hátteret, hogy az adatbányászatot valós problémákra alkalmazhassa. Ezen túlmenően a könyv kiindulópontot is ad azoknak az olvasóknak, akik az adatbányászat, illetve kapcsolódó területein folytatandó kutatás iránt érdeklődnek.

A könyv öt fő témát ölel fel: adatok, osztályozás, asszociációs elemzés, klaszterezés és rendellenesség-észlelés. A rendellenesség-észlelést kivéve mindegyik területet egy-egy fejezet-pár tárgyalja. Az osztályozás, az asszociációs elemzés és a klaszterezés témáknál a bevezető fejezet az alapfogalmakat, a tipikus algoritmusokat és a kiértékelési eljárásokat tartalmazza, míg a másik fejezet a haladóbb fogalmakat és algoritmusokat tárgyalja. A cél az, hogy az Olvasó alaposan megértse az adatbányászat alapjait, mindemellett sok fontos haladó témát is érintsünk. Ezen megközelítés miatt a könyv egyaránt hasznos tanulási eszköz és referencia.

Annak érdekében, hogy az olvasók jobban megértsék a bemutatott fogalmakat, példák, ábrák és gyakorlatok kiterjedt sokaságát adjuk. Az egyes fejezetek végén irodalmi megjegyzések találhatóak azon olvasók számára, akik érdeklődnek a haladó témák, történelmileg fontos cikkek és a legújabb irányok iránt. A könyv továbbá átfogó tárgy- és névmutatót is tartalmaz.

Az oktatóknak

Mint tankönyv a könyv diákok széles körének az igényeit kielégíti, felsőbb egyetemi és posztgraduális szinten egyaránt. Mivel az e tárgyat felvett diákok olyan változatos háttérrel rendelkeznek, amely nem feltétlen terjed ki a statisztika vagy az adatbázisok alapos ismeretére, könyvünk minimális előismereteket feltételez -- nem szükséges az adatbázisok ismerete, és csak szerény hátteret feltételezünk a statisztika vagy a matematika területén. E célból a könyv olyan önállóra lett szerkesztve, amennyire ez csak lehetséges volt. A statisztikából, lineáris algebrából és gépi tanulásból szükséges ismereteket vagy a szöveg törzsébe integráltuk, vagy néhány speciális téma esetén a függelékekre hagytuk.

Mivel a főbb adatbányászati témákat felölelő fejezetek önállóak, a témák sorrendje elég rugalmasan választható meg. Az anyag gerince a 2., 4., 6., 8. és 10. fejezet. Bár az adatokat tárgyaló, bevezető 2. fejezetnek kell először sorra kerülni, az alapvető osztályozással, asszociációs elemzéssel és klaszterezéssel foglalkozó (4., 6. és 8.) fejezetek már bármilyen sorrendben olvashatóak. Mivel a rendellenesség-észlelés (10. fejezet) kapcsolódik az osztályozáshoz (4. fejezet) és a klaszterezéshez (8. fejezet), ezeknek a fejezeteknek meg kell előzniük a 10. fejezetet. Az órarendnek illetve az oktató és a hallgatók igényeinek megfelelően változatos témák választhatóak a haladó osztályozás, asszociációs elemzés és klaszterezés (5., 7. és 9.) fejezetekből. Azt is javasoljuk, hogy az előadásokat bővítsük ki adatbányászati projektekkel vagy gyakorlati feladatokkal. Bár ezek időigényesek, az ilyen gyakorlati feladatok nagy mértékben növelik a kurzus értékét.

Segédanyagok

A könyv mellékletei elérhetőek az Addison-Wesley honlapján a http://www.aw.com/cssupport címen. A könyv összes olvasója számára elérhető segédanyagok az alábbiakat foglalják magukba:

  • PowerPoint előadás diák,

  • hallgatói projekt javaslatok,

  • adatbányászati erőforrások, úgymint adatbányászati algoritmusok és adatállományok,

  • online oktatóprogramok, amelyek lépésenkénti példákat adnak néhány kiválasztott könyvbeli adatbányászati módszerre valós adatállományok és adatelemző szoftver használatával.

További segédanyagok, beleértve a feladatokra adott megoldásokat, csak azon oktatók számára érhetőek el, akik beillesztik a tankönyvet az iskolai használatba. Kérjük forduljon felvilágosításért iskolája Addison-Wesley képviselőjéhez, hogy hogyan férhet hozzá ehhez az anyaghoz. Észrevételeket és javaslatokat, valamint hibalistákat a dmbook@cs.umn.edu címen keresztül lehet eljuttatni a szerzőkhöz.

Köszönetnyilvánítás

Sokan járultak hozzá a könyvhöz. Kezdjük rögtön családjaink -- akiknek a könyvet is ajánljuk -- felé tett köszönetnyilvánítással. Az ő türelmük és támogatásuk nélkül ez a projekt nem valósulhatott volna meg.

Szeretnénk köszönetet mondani közreműködésükért adatbányászati csoportjaink jelenlegi és egykori diákjainak a Minnesotai Egyetemen és a Michigani Állami Egyetemen. Eui-Hong (Sam), Han (iXmatch) és Mahesh Joshi (SAS) segített az első adatbányászati kurzusoknál. Egyes általuk létrehozott feladatok és bemutató diák megtalálhatóak a könyvben, és az azt kísérő diasorozatban is. Adatbányászati csoportjainkból az alábbi diákok fűztek megjegyzéseket a könyv tervezetéhez, vagy járultak hozzá más módon: Shyam Boriah, Haibin Cheng, Varun Chandola, Eric Eilertson, Levent Ertöz, Jing Gao, Rohit Gupta, Sridhar Iyer, Jung-Eun Lee, Benjamin Mayer, Aysel Özgür, Uygar Oztekin, Gaurav Pandey, Kashif Riaz, Jerry Scripps, György Simon, Hui Xiong, Jieping Ye és Pusheng Zhang. Ezúton is szeretnénk köszönetet mondani adatbányász kurzusaink azon diákjainak a Minnesotai Egyetemen és a Michigan Állami Egyetemen, akik a könyv korai tervezeteivel dolgoztak, és felbecsülhetetlen visszajelzést adtak. Külön megjegyezzük Bernardo Craemer, Arifin Ruslim, Jamshid Vayghan és Yu Wei hasznos javaslatait.

Joydeep Ghosh (Texasi Egyetem) és Sanjay Ranka (Floridai Egyetem) kurzusaikon a könyv korai változatait tesztelték. A Texasi Egyetem következő diákjaitól közvetlenül mi is sok hasznos javaslatot kaptunk: Pankaj Adhikari, Rajiv Bhatia, Frederic Bosche, Arindam Chakraborty, Meghana Deodhar, Chris Everson, David Gardner, Saad Godil, Todd Hay, Clint Jones, Ajay Joshi, Joonsoo Lee, Yue Luo, Anuj Nanavati, Tyler Olsen, Sunyoung Park, Aashish Phansalkar, Geoff Prewett, Michael Ryoo, Daryl Shannon és Mei Yang.

Ronald Kostoff (ONR) a klaszterezési fejezet egy korábbi változatát olvasta és számos javaslatot ajánlott. George Karypis felbecsülhetetlen segítséget nyújtott LaTeX -ben a szerzők indexének elkészítéséhez. Irene Moulitsas szintén segített LaTeX -ben, és átnézett néhány függeléket. Musetta Steinbach nagyon hasznosnak bizonyult az ábrák hibáinak keresésénél.

Szeretnénk megköszönni munkatársainknak a Minnesotai Egyetemen és a Michigani Állami Egyetemen, hogy segítettek az adatbányászati kutatások számára kedvező környezetet kialakítani. Ezek közé tartozik Dan Boley, Joyce Chai, Anil Jain, Ravi Janardan, Rong Jin, George Karypis, Haesun Park, William F. Punch, Shashi Shekhar és Jaideep Srivastava. A számos adatbányászati projektünkön közreműködőknek ugyancsak hálával tartozunk: Ramesh Agrawal, Steve Cannon, Piet C. de Groen, Fran Hill, Yongdae Kim, Steve Klooster, Kerry Long, Nihar Mahapatra, Chris Potter, Jonathan Shapiro, Kevin Silverstein, Nevin Young és Zhi-Li Zhang.

A Minnesotai Egyetem és a Michigani Állami Egyetem Számítástudomány és Informatika tanszékei gondoskodtak a számítási erőforrásokról és a támogató környezetről a projekt számára. Az ARDA, ARL, ARO, DOE, NASA és NSF alapok biztosították a kutatási támogatást Pang-Ning Tan, Michael Steinbach és Vipin Kumar számára. Különösen szeretnénk köszönetet mondani az alábbiaknak: Kamal Abdali, Dick Brackney, Jagdish Chandra, Joe Coughlan, Michael Coyle, Stephen Davis, Frederica Darema, Richard Hirsch, Chandrika Kamath, Raju Namburu, N. Radhakrishnan, James Sidoran, Bhavani Thuraisingham, Walt Tiernin, Maria Zemankova és Xiaodong Zhang.

Öröm volt a Pearson Education segítőkész személyzetével dolgozni. Különösen szeretnénk köszönetet mondani a következő személyeknek: Michelle Brown, Matt Goldstein, Katherine Harutunian, Marilyn Lloyd, Kathy Smith és Joyce Wells. Szintén szeretnénk köszönetet mondani George Nichols-nak, aki a grafikában segített, és Paul Anagnostopoulos-nak, aki a LaTeX-támogatást nyújtotta. A következő Pearson bírálóknak vagyunk hálásak: Chien-Chung Chan (University of Akron), Zhengxin Chen (University of Nebraska at Omaha), Chris Clifton (Purdue University), Joydeep Ghosh (University of Texas, Austin), Nazli Goharian (Illinois Institute of Technology), J. Michael Hardin (University of Alabama), James Hearne (Western Washington University), Hillol Kargupta (University of Maryland, Baltimore County and Agnik, LLC), Eamonn Keogh (University of California-Riverside), Liu Bing (University of Illinois at Chicago), Mariofanna Milanova (University of Arkansas at Little Rock), Srinivasan Parthasarathy (Ohio State University), Zbigniew W. Ras (University of North Carolina at Charlotte), Xintao Wu (University of North Carolina at Charlotte) és Mohammed J. Zaki (Rensselaer Polytechnic Institute).

1. fejezet - Bevezetés

Az adatgyűjtési és tárolási technológiák gyors fejlődésével a szervezetek képessé váltak arra, hogy nagy mennyiségű adatot halmozzanak fel. A hasznos információk kinyerése azonban már rendkívüli kihívásnak bizonyult. A hagyományos adatelemzési eszközök és módszerek gyakran nem használhatóak a hatalmas adattömeg miatt. Esetenként az adatok nem hagyományos természetűek, ami azt jelenti, hogy a hagyományos megközelítések még viszonylag kicsi adatállomány esetén sem alkalmazhatóak. Máskor a megválaszolandó kérdések nem kezelhetőek a meglévő adatelemzési módszerekkel, és így új módszereket kell kidolgozni.

Az adatbányászat egy olyan technológia nagy mennyiségű adat feldolgozására, amely hagyományos adatelemzési módszerek és kifinomult algoritmusok elegye. Ez a technológia izgalmas lehetőségeket nyitott meg új típusú adatok feltárására és elemzésére, továbbá régi típusú adatok új módon való vizsgálatára. Ebben a bevezető fejezetben áttekintést adunk az adatbányászatról, és felvázoljuk a könyv legfontosabb témáit. A leírást néhány olyan jól ismert alkalmazással kezdjük, amelyeknél az adatok elemzése új módszereket követel meg.

Üzlet Az automatizált vásárlásnál alkalmazott adatrögzítés (vonalkód leolvasók, rádiófrekvenciás azonosítás (RFID) és az okoskártya (smart card) technológia) lehetővé teszi, hogy áruházaik pénztárainál a kereskedők összegyűjtsék ügyfeleik vásárlásairól a legfrissebb adatokat. A kereskedők ezután arra használhatják ezt az információt, továbbá más olyan, az üzletet kritikusan érintő adatokat, mint az elektronikus kereskedelem webes naplóit és a vevőszolgálatok ügyféladatait, hogy segítségükkel ügyfeleik igényeit jobban megértsék, és megalapozottabb üzleti döntéseket hozzanak.

Az adatbányászati módszerek olyan széles körű üzleti intelligencia alkalmazások támogatására használhatóak, mint ügyfélprofil készítés, célzott marketing, üzleti folyamatok menedzsmentje, üzlethelyiségek berendezése és csalásfelderítés. Ezek a módszerek abban is segítenek a kereskedőknek, hogy választ kapjanak olyan fontos üzleti kérdésekre, mint ,,Kik a legjövedelmezőbb ügyfelek?'', ,,Milyen termékeket lehet keresztértékesíteni vagy leértékelni?'' és ,,Milyen a cég bevételi kilátása a következő évben?'' E kérdések némelyike motiválta egy új adatelemzési módszer, az asszociációs szabály elemzés megalkotását (lásd 6. és 7. fejezeteket).

Orvos-, természet- és műszaki tudományok A kutatók az orvos-, természet- és műszaki tudományok területén gyorsan halmoznak fel olyan adatokat, amelyek kulcsfontosságúak a fontos új felfedezésekhez. Például a Föld éghajlati rendszerének jobb megértése felé tett fontos lépésként, a NASA egy sor Föld körüli műholdat telepített, amelyek folyamatosan globális megfigyeléseket szolgáltatnak a földfelszínről, az óceánokról és a légkörről. Azonban az adatok mérete és tér-időbeli természete miatt a hagyományos módszerek gyakran nem alkalmasak ezeknek az adatállományoknak az elemzésére. Az adatbányászatban kifejlesztett módszerek segíthetnek a Földet vizsgáló tudósoknak az olyan kérdések megválaszolásában, mint ,,Mi a kapcsolat az olyan ökoszisztéma zavarok gyakorisága és intenzitása között, mint például az aszályok és hurrikánok, egészen a globális felmelegedésig?'', ,,Milyen hatással van a földfelszíni csapadék és hőmérséklet az óceán felszínének hőmérsékletére?'' és ,,Milyen jól tudjuk megjósolni a tenyészidőszak kezdetét és végét egy régióban?''

Egy másik példában a molekuláris biológia kutatói remélik, hogy a mostanában összegyűjtött nagy mennyiségű genomikai adat segítségével jobban megértik a gének szerkezetét és funkcióit. A múltban a molekuláris biológia hagyományos módszerei csak néhány gén egy időben való tanulmányozását tették lehetővé a tudósok számára egy adott kísérletben. A microarray technológia legújabb áttörése révén a tudósok viszont már össze tudják hasonlítani több ezer gén viselkedését különböző helyzetekben. Az ilyen összehasonlítás segítheti minden egyes gén funkciójának a meghatározását, és talán azon gének elkülönítését is, amelyek bizonyos betegségekért felelősek. Azonban az adatok zajos és sokdimenziós természete új típusú adatelemzési módszereket igényel. Ezen kívül, a genetikai adatok elemzése mellett, az adatbányászat alkalmazható olyan más fontos biológiai kihívások kezelésére, mint a fehérjék szerkezetének előrejelzése, több szekvencia illesztése (multiple alignment), biokémiai utak modellezése és a filogenetika.

Mi az adatbányászat?

Az adatbányászat az a folyamat, amellyel hasznos információ fedezhető fel automatikus módon nagy adattárakban. Adatbányászati módszereket vetnek be nagy adatbázisok átkutatására annak érdekében, hogy olyan új és hasznos mintázatokat találjanak, amelyek egyébként ismeretlenek maradnának. Ezek a módszerek továbbá képesek előre megjósolni egy olyan jövőbeli megfigyelés kimenetelét, mint az például, hogy egy újonnan érkezett vásárló többet költ-e egy áruházban, mint 100 dollár.

Nem minden információ feltárási feladat tekinthető adatbányászatnak. Például olyan feladatok, mint egyedi rekordok kikeresése egy adatbázis-kezelő rendszer segítségével, vagy bizonyos weblapok megtalálása egy internetes keresőprogramban való lekérdezés útján, az információkeresés (information retrieval) területével vannak kapcsolatban. Bár az ilyen feladatok fontosak és kifinomult algoritmusok és adatszerkezetek használatával is járhatnak, hagyományos számítógép-tudományi módszerekre és az adatok olyan kézenfekvő jellemzésére támaszkodnak, mint a hatékony szervezésre és információkeresésre létrehozott index struktúrák. Mindazonáltal, adatbányászati módszereket alkalmaznak információkereső rendszerek hatékonyságának fokozására.

Adatbányászat és tudásfeltárás

Az adatbányászat szerves részét képezi az adatbázisokban végzett tudásfeltárás (KDD -- Knowledge Discovery in Databases) folyamatának, amely a nyers adatoknak hasznos információvá való átalakításának a teljes folyamata, amint azt az 1.1. ábra mutatja. Ez a folyamat transzformációs lépéseknek az adatok előfeldolgozásától az adatbányászati eredmények utófeldolgozásáig terjedő sorozatából áll.

1.1. ábra - Az adatbázisokban végzett tudásfeltárás (KDD) folyamata

Az adatbázisokban végzett tudásfeltárás (KDD) folyamata

A bemenő adatokat különböző formátumokban tárolhatjuk (szövegfájlok, táblázatok vagy relációs táblák) és egyaránt lehetnek központi adattárolón vagy több hely között elosztva. Az előfeldolgozás (preprocessing) célja, hogy a nyers bemenő adatokat a későbbi elemzésnek megfelelő formátumba alakítsa. Az adatok előfeldolgozásának lépései tartalmazzák az adatok több forrásból való egyesítését, az adatok tisztítását a zaj és az ismétlődő megfigyelések eltávolításával, és azon rekordok és változók kiválasztását, amelyek lényegesek az aktuális adatbányászati feladatnál. Mivel az adatokat sokféleképpen lehet összegyűjteni és tárolni, az adatok előfeldolgozása talán a leginkább fáradságos és időigényes lépés az adatbázisokban végzett tudásfeltárás folyamatában.

A visszacsatolás kifejezést gyakran használják arra, hogy az adatbányászat eredményeinek a döntéstámogató rendszerekbe való beágyazásának folyamatára utaljanak. Üzleti alkalmazásokban például az adatbányászati eredmények által nyújtott közelkép kiegészítheti a kampánymenedzsment eszközöket úgy, hogy általuk hatékony értékesítési reklámkampányok vezethetőek le és mérhetőek vissza. Az ilyen integráció egy olyan utófeldolgozási (postprocessing) lépést igényel, amely biztosítja, hogy csak az érvényes és hasznos eredmények épüljenek be a döntéstámogató rendszerbe. Egy példa utófeldolgozásra a vizualizáció (lásd 3. fejezetet), amely az elemzőknek lehetővé teszi, hogy az adatokat és az adatbányászat eredményeit különböző nézőpontokból vizsgálják meg. Az utófeldolgozás során statisztikai mérőszámok vagy hipotézisvizsgálati módszerek is alkalmazhatóak azért, hogy a félrevezető adatbányászati eredményeket eltávolítsuk.

Ösztönző kihívások

Mint korábban említettük, a hagyományos adatelemzési módszerek sokszor gyakorlati nehézségekkel találják szembe magukat, amikor új adatállományok által felvetett kihívásokkal találkoznak. Az alábbiakban néhány olyan konkrét kihívást sorolunk fel, amely az adatbányászat fejlődését ösztönözte.

Skálázhatóság Az adatok előállításában és összegyűjtésében elért fejlődés miatt egyre gyakoribbak a gigabájt, terabájt, vagy akár petabájt méretű adatállományok. Ha az adatbányász algoritmusok kezelni akarják ezeket a hatalmas adatállományokat, akkor skálázhatóaknak kell lenniük. Sok adatbányász algoritmus speciális keresési stratégiát alkalmaz, hogy az exponenciális keresési problémákat kezelni tudja. A skálázhatóság új adatszerkezetek implementálását is megkövetelheti azért, hogy az egyedi rekordokat hatékonyan elérhessük. Például memórián kívül futó algoritmusokra lehet szükségünk, amennyiben a feldolgozandó adatállomány nem fér bele a fő memóriába. A skálázhatóság javítható mintavételezés vagy fejlett párhuzamos és elosztott algoritmusok használatával is.

Magas dimenzió Mostanában, a néhány évtizeddel ezelőtt általános maroknyi méretűekkel szemben, gyakran találkozunk olyan adatállományokkal, amelyek több száz vagy ezer attribútumot tartalmaznak. A bioinformatikában a microarray technológia fejlődése olyan génkifejeződés adatokat állított elő, amelyek jellemzők ezreit hozták magukkal. Az időbeli vagy térbeli összetevőkkel bíró adatállományok is hajlamosak arra, hogy magas dimenziójúak legyenek. Tekintsünk például egy olyan adatállományt, amely hőmérséklet méréseket tartalmaz különböző helyeken. Ha a méréseket többször is elvégezzük egy hosszabb időszakban, akkor a dimenziók (jellemzők) száma arányosan nő a mérések számával. Azok a hagyományos adatelemzési módszerek, amelyeket a kis dimenziójú adatokra dolgoztak ki, gyakran nem működnek jól az ilyen magas dimenziójú adatoknál. Néhány adatelemző algoritmusnál a számítási bonyolultság is gyorsan nő, ahogy a dimenzió (a jellemzők száma) növekszik.

Heterogén és összetett adatok A hagyományos adatelemzési módszerek általában olyan adatállományokkal foglalkoznak, amelyek ugyanolyan típusú, vagy folytonos vagy pedig kategorikus attribútumokat tartalmaznak. Ahogy nőtt az adatbányászat szerepe az üzleti, tudományos, orvosi és más területeken, úgy váltak szükségessé azok a módszerek, amelyek képesek kezelni heterogén attribútumokat. Az elmúlt években is egyre összetettebb adatobjektumok jelentek meg. Ilyen nem hagyományos típusú adatokra példa weboldalak félig-strukturált szöveget és hiperhivatkozásokat tartalmazó gyűjteménye, DNS adatok szekvenciális és három-dimenziós strukturája, és idősorokból (hőmérséklet, nyomás, stb.) álló éghajlati adatok, melyeket a Föld felszín különböző pontjain mértek. Az ilyen összetett objektumok bányászatára kifejlesztett módszereknek figyelembe kell venni az adatokban lévő kapcsolatokat, mint például az időbeli és térbeli autokorreláció, a gráf-összefüggőség, valamint a szülő-gyermek viszony a félig-strukturált szövegek és az XML dokumentumok elemei között.

Az adatok tulajdonjoga és megosztása Néha az egy elemzéshez szükséges adatokat nem egy helyen tárolják, vagy a tulajdonosuk nem egy szervezet. Ehelyett az adatok földrajzilag elosztottak több szervezethez tartozó források között. Ez megköveteli az elosztott adatbányászati módszerek fejlesztését. Az alábbiak a legfontosabb kihívások, amelyekkel szembe találkozunk elosztott adatbányászati algoritmusoknál: (1) hogyan lehet csökkenteni a szükséges kommunikáció mennyiségét az elosztott számítások végrehajtása során, (2) hogyan kell hatékonyan egyesíteni a több forrásból kapott adatbányászati eredményeket, és (3) hogyan kezeljük az adatbiztonsági kérdéseket.

Nem hagyományos elemzés A hagyományos statisztikai megközelítés a hipotézis és próba paradigmán alapszik. Más szóval, először egy hipotézist javaslunk, majd kísérletet tervezünk az adatok összegyűjtésére, végül a hipotézist eldöntendő elemezzük az adatokat. Sajnos ez a folyamat rendkívül munkaigényes. Napjaink adatelemzési feladatai gyakran hipotézisek ezreinek felállítását és kiértékelését követelik meg, következésképp egyes adatbányászati módszerek kifejlődését éppen az azutáni vágy motiválta, hogy a hipotézis felállítás és kiértékelés folyamatát automatizáljuk. Emellett az adatbányászat során elemzett adatállományok jellemzően nem gondosan megtervezett kísérletek eredményeként adódnak, és gyakran véletlen minta helyett inkább az adatok alkalomszerű mintáit mutatják. Ezentúl az adatállományok gyakran nem hagyományos típusú adatokból állnak, és nem hagyományos adateloszlásokkal bírnak.

Az adatbányászat eredete

Az előző szakasz kihívásainak a találkozása hozta össze különböző tudományágak kutatóit azért, hogy elkezdjenek olyan hatékonyabb és skálázhatóbb eszközöket fejleszteni, amelyekkel kezelhetőek a különböző típusú adatok. Ez a munka, amely végül az adatbányászat tudományágban tetőzőtt, egy olyan módszertanon és algoritmusokon alapszik, amelyeket a kutatók már korábban is használtak. Különösen azokról a területekről merít ötleteket az adatbányászat, mint például (1) a mintavételezés, becslés és hipotézisvizsgálat a statisztikában és (2) a kereső algoritmusok, modellezési módszerek és tanuló eljárások a mesterséges intelligenciában, alakfelismerésben és gépi tanulásban. Az adatbányászat más területekről jövő ötleteket is gyorsan a magáévá tesz, beleértve az optimalizálást, evolúciós számítástudományt, információelméletet, jelfeldolgozást, vizualizációt és információkeresést.

Számos más terület is fontos támogató szerepet játszik. Különösen szükségesek az adatbáziskezelő-rendszerek a hatékonyabb tárolás, indexelés és lekérdezés feldolgozás támogatására. A nagy teljesítményű (párhuzamos) számítástudomány módszerei gyakran fontosak a hatalmas méretű adatállományok kezelésében. Az elosztott számítási módszerek szintén segíthetnek az adatállomány méretének kérdésében, és alapvetőek, amennyiben az adatok nem gyűjthetőek össze egy helyre.

Az 1.2. ábra az adatbányászat más területekkel való kapcsolatát mutatja.

1.2. ábra - Az adatbányászat mint több tudományág egyesülése

Az adatbányászat mint több tudományág egyesülése

Adatbányászati feladatok

Az adatbányászati feladatok általában két fő kategóriába sorolhatóak:

Előrejelző (predictive) feladatok. Ezen feladatok célja egy bizonyos attribútum értékeinek előrejelzése más attribútumok értékei alapján. Az előrejelzendő attribútum általában cél- vagy függő változóként, míg az előrejelzésre használt attribútumok magyarázó vagy független változókként ismertek.

Leíró (descriptive) feladatok. Itt a cél olyan mintázatok (korrelációk, tendenciák, klaszterek, pályagörbék és rendellenességek) keresése, amelyek összegzik az adatokban elrejtett kapcsolatokat. A leíró adatbányászati feladatok gyakran feltáró jellegűek, és gyakran igényelnek utófeldolgozási módszereket az eredmények hitelesítése és magyarázata céljából.

Az 1.3. ábra négy olyan alapvető adatbányászati feladatot szemléltet, amelyeket a könyv hátralévő részében ismertetünk.

1.3. ábra - Négy alapvető adatbányászati feladat

Négy alapvető adatbányászati feladat

Prediktív modellezés alatt azt a feladatot értjük, amely során egy olyan modellt építünk, ahol a célváltozó a magyarázó változók egy függvénye. Kétféle prediktív modellezési feladat ismert: az osztályozás, amelyet diszkrét célváltozók, és a regresszió, amelyet folytonos célváltozók esetén használunk. Annak előrejelzése például, hogy egy felhasználó a weben vásárol-e egy online könyvesboltban, osztályozási feladat mivel a célváltozó bináris értékű. Másrészt egy részvény jövőbeli árának előrejelzése regressziós feladat, mert az ár folytonos attribútum. A cél mindkét feladatnál az, hogy egy olyan modellt tanítsunk, amely minimalizálja a célváltozó előrejelzett és valós értéke közötti hibát. Prediktív modellezést használhatunk olyan ügyfelek megtalálására, akik válaszolnak egy marketing kampányra, a Föld ökoszisztémája zavarainak az előrejelzésére, vagy annak eldöntésére az orvosi vizsgálatok eredményei alapján, hogy egy beteg egy adott betegségben szenved-e.

1.1. Példa (Egy virág típusának előrejelzése)

Tekintsük azt a feladatot, amelyben egy virág fajtáját szeretnénk előrejelezni a virág tulajdonságai alapján. Speciálisan tekintsük az írisz virág osztályozását aszerint, hogy a következő három írisz fajta melyikébe tartozik: nőszirom (Setosa), foltos nőszirom (Versicolor), vagy virginiai nőszirom (Virginica). Ennek a feladatnak az elvégzésére ezen három fajta különböző virágainak a jellemzőit tartalmazó adatállományra van szükségünk. Egy ilyen típusú információkat tartalmazó adatállomány a jól ismert Írisz adatállomány a UCI Machine Learning Repository-ból (Kaliforniai Egyetem gépi tanulás adattárháza) a http://www.ics.uci.edu/~mlearn címen. A virágok fajtája mellett ez az adatállomány négy másik attribútumot is tartalmaz: a csészelevél szélessége és hosszúsága, valamint a sziromlevél hosszúsága és szélessége. (Az Írisz adatállomány és attribútumainak további leírása megtalálható 3.1. szakaszban.) Az 1.4. ábra a szirom szélességet a szirom hosszúsága függvényében mutatja az Írisz adatállomány 150 virágára. A szirom szélességet kicsi, közepes és nagy kategóriákba osztottuk, amelyek a [0;0,75) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGimaiaacYcacaaI3aGaaGynaiaacMcaaaa@3BF9@ , [0,75;1,75) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGGSaGaaG4naiaaiwdacaGG7aGaaGymaiaacYcacaaI3aGaaGynaiaacMcaaaa@3E2A@ és [1,75;8) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaigdacaGGSaGaaG4naiaaiwdacaGG7aGaaGioaiaacMcaaaa@3C02@ intervallumoknak felelnek meg. A szirom hosszúságot is kicsi, közepes és nagy kategóriákba osztottuk, amelyek a [0;2,5) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGOmaiaacYcacaaI1aGaaiykaaaa@3B3A@ , [2,5;5) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaikdacaGGSaGaaGynaiaacUdacaaI1aGaaiykaaaa@3B3F@ és [5;8) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaiwdacaGG7aGaaGioaiaacMcaaaa@39D6@ intervallumoknak felelnek meg. Mindezen szirom szélességi és hosszúsági kategóriák alapján a következő szabályokat származtathatjuk:

Kis szirom szélesség és szirom hosszúság Setosa fajtára utal.

Közepes szirom szélesség és szirom hosszúság Versicolor fajtára utal.

Nagy szirom szélesség és szirom hosszúság Virginica fajtára utal.

Bár ezek a szabályok nem osztályozzák helyesen az összes virágot, mégis jó, de messze nem tökéletes osztályozást adnak a legtöbb virág számára. Megjegyezzük, hogy a Setosa fajtabeli virágok jól elkülönülnek a Versicolor és Virginica fajtáktól a szirom szélesség és hosszúság tekintetében, azonban a két utóbbi fajta között kis átfedés van ezen tulajdonságok alapján.

1.4. ábra - Szirom szélesség a szirom hosszúság függvényében a 150 írisz virágra

Szirom szélesség a szirom hosszúság függvényében a 150 írisz virágra

Asszociációs elemzés olyan mintázatok felfedezésére alkalmazható, amelyek az adatok szorosan összefüggő jellemzőit írják le. A feltárt mintázatok tipikusan következtetési szabályok vagy jellemző részhalmazok alakjában szemléltethetőek. Mivel a keresés terének nagysága exponenciálisan nő, az asszociációs elemzés célja a legérdekesebb mintázatok hatékony módon való kinyerése. Az asszociációs elemzés hasznos alkalmazási területei többek között olyan gének csoportjainak keresése, amelyek funkciói összefüggenek, olyan Web oldalak azonosítása, amelyek együtt érhetők el, vagy a Föld éghajlati rendszerének különböző elemei közötti kapcsolatok megértése.

1.2. Példa (Vásárlói kosár elemzés)

Az 1.1. táblázatbeli tranzakciók olyan automatizált vásárlásnál keletkezett adatokat ábrázolnak, amelyeket egy élelmiszer-áruház pénztárainál gyűjtöttünk össze. Asszociációs elemzést alkalmazhatunk arra, hogy olyan árucikkeket találjunk, melyeket gyakran vásárolnak egyszerre a vásárlók. Felfedezhetjük például a {Pelenka}{Tej} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaadcfacaWGLbGaamiBaiaadwgacaWGUbGaam4AaiaadggacaGG9bGaeyOKH4Qaai4EaiaadsfacaWGLbGaamOAaiaac2haaaa@450C@ szabályt, amely azt sugallhatja, hogy azok a vásárlók, akik pelenkát vesznek, hajlamosak arra, hogy tejet is vegyenek. Az ilyen típusú szabályok a kapcsolódó árucikkek közötti potenciális keresztértékesítési lehetőségek megtalálására használhatóak.

1.1. táblázat - Vásárlói kosár adatok

Tranzakció ID

Árucikkek

1

{Kenyér, Vaj, Pelenka, Tej}

2

{Kávé, Cukor, Keksz, Lazac}

3

{Kenyér, Vaj, Kávé, Pelenka, Tej, Tojás}

4

{Kenyér, Vaj, Lazac, Csirke}

5

{Tojás, Kenyér, Vaj}

6

{Lazac, Pelenka, Tej}

7

{Kenyér, Tea, Cukor, Tojás}

8

{Kávé, Cukor, Csirke, Tojás}

9

{Kenyér, Pelenka, Tej, Só}

10

{Tea, Tojás, Keksz, Pelenka, Tej}


Klaszterezés módszerével úgy igyekszünk megtalálni szorosan kapcsolódó megfigyelések csoportjait, hogy az ugyanahhoz a klaszterhez tartozó megfigyelések jobban hasonlítsanak egymásra, mint a más klaszterekhez tartozó megfigyelések. Klaszterezést használnak kapcsolódó ügyfelek halmazainak csoportosítására, az óceán azon részeinek megkeresésére, amelyek jelentős hatással bírnak a Föld éghajlatára, és adatok tömörítésére.

1.3. Példa (Dokumentumok klaszterezése)

Újságcikkek egy, 1.2. táblázatban látható gyűjteményét csoportosíthatjuk a megfelelő témáik alapján. Minden egyes cikket (w,c) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaiikaiaadEhacaGGSaGaam4yaiaacMcaaaa@39F7@ szó-gyakoriság párok egy halmazával reprezentálhatunk, ahol w MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Daaaa@3706@ egy szó és c MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4yaaaa@36F2@ az a szám, ahányszor a szó előfordul a cikkben. Az adatállományban két természetes klaszter van. Az első klaszter, amely a gazdasági újságcikkeknek felel meg, az első négy cikkből áll, míg a második klaszter, amely az utolsó négy cikket tartalmazza, az egészségügyi ellátásról szóló cikkeknek felel meg. Egy jó klaszterező algoritmusnak tudnia kell azonosítani ezt a két klasztert a cikkekben előforduló szavak közötti hasonlóság alapján.

1.2. táblázat - Újságcikkek egy gyűjteménye

Cikk

Szavak

1

dollár: 1, ipar: 4, vidék: 2, kölcsön: 3, üzlet: 2, kormány: 2

2

szervezet: 2, munkaerő: 3, piac: 4, ipar: 2, munka: 3, vidék: 1

3

állás: 5, infláció: 3, béremelés: 2, munkanélküli: 2, piac: 3, vidék: 2, index: 3

4

belföldi: 3, előrejelzés: 2, nyereség: 1, piac: 2, kiárusítás: 3, ár: 2

5

beteg: 4, tünet: 2, gyógyszer: 3, egészség: 2, klinika: 2, orvos: 2

6

gyógyszerészeti: 2, vállalat: 3, gyógyszer: 2, oltóanyag: 1, influenza: 3

7

halál: 2, rák: 4, gyógyszer: 3, nyilvános: 4, egészség: 3, igazgató: 2

8

orvosi: 2, költség: 3, növekszik: 2, beteg: 2, egészség: 3, gondoskodás: 1


Rendellenesség-észlelés alatt olyan megfigyelések azonosításának a feladatát értjük, amelynek jellemzői jelentősen eltérnek a többi adattól. Az ilyen megfigyeléseket rendellenesnek (anomaly) vagy kiugrónak (outlier) nevezzük. Egy rendellenesség-észlelő algoritmus célja, hogy igazi rendellenességeket találjon és elkerülje azt, hogy normális objektumokat hamisan rendellenesnek címkézzen. Más szóval, egy jó rendellenesség érzékelőnek magas felismerési aránnyal és alacsony téves riasztási aránnyal kell rendelkeznie. A rendellenesség-észlelés alkalmazható többek között csalások, hálózati behatolások, szokatlan betegségek és az ökoszisztéma zavarainak észlelésére.

1.4. Példa (Hitelkártya-csalások keresése)

Egy hitelkártya-társaság az összes hitelkártya-tulajdonos által végrehajtott tranzakciót rögzíti, továbbá olyan személyes adatokat, mint például a hitelkorlát, életkor, éves jövedelem és lakcím. Mivel a csalárd esetek száma viszonylag kicsi a jogszerű tranzakciók számához képest, rendellenesség-észlelési módszereket alkalmazhatunk arra, hogy a felhasználók jogszerű trancakcióira profilt alkossunk. Amikor egy új tranzakció érkezik, összehasonlításra kerül a felhasználó profiljával. Ha a tranzakció jellemzői nagyon eltérnek a korábban létrehozott profiltól, akkor a tranzakció a lehetséges csalás jelét kapja.

A könyv témája és szerkezete

A könyv az adatbányászatban alkalmazott legfontosabb elveket és módszereket mutatja be algoritmikus szempontból. Ezen elvek és módszerek tanulmányozása alapvető fontosságú annak jobb megértéséhez, hogyan alkalmazható az adatbányászati technológia különféle adatokra. A könyv kiinduló pontként is szolgál azon olvasóknak, akik ezen a területen való kutatás iránt érdeklődnek.

A szakmai tárgyalás egy az adatokról szóló fejezettel (2. fejezet) indul a könyvben, amely az alapvető adattípusokat, az adatok minőségét, az előfeldolgozási módszereket és a hasonlóság illetve távolság mértékeket tárgyalja. Bár ezt az anyagot az Olvasó gyorsan átfuthatja, nélkülözhetetlen alapot nyújt az adatelemzéshez. Az adatfeltárásról szóló 3. fejezet az összegző statisztikákat, a vizualizációs módszereket és a közvetlen analitikus feldolgozást (OLAP -- On-Line Analytical Processing) tárgyalja. Ezek a módszerek biztosítják azokat az eszközöket, hogy rövid idő alatt közelképet kapjunk egy adathalmazról.

4. és 5. fejezet az osztályozással foglalkozik. 4. fejezet megfelelő alapot nyújt a döntési fa osztályozók és számos olyan, az osztályozásnál fontos kérdés megvitatásával, mint a túlillesztés, a teljesítmény kiértékelés és a különböző osztályozási modellek összehasonlítása. Erre alapozva 5. fejezet számos egyéb fontos osztályozási módszert ismertet: szabály-alapú rendszerek, legközelebbi szomszéd osztályozók, Bayes osztályozók, mesterséges neurális hálók, tartóvektor-gépek, és együttes osztályozók, amelyek osztályozók gyűjteményei. A többosztályos és osztály-kiegyensúlyozatlansági problémákra is kitérünk. Ezek a témák egymástól függetlenül is olvashatóak.

Az asszociációs elemzést 6. és 7. fejezetben tárgyaljuk. 6. fejezetben az asszociációs elemzés alapjait ismertetjük: gyakori tételcsoportok, asszociációs szabályok és néhány algoritmus az előállításukra. Szintén itt tárgyalunk olyan speciális típusú gyakori tételcsoportokat, mint maximális, zárt és hiperklikk tételcsoportok, amelyek fontosak az adatbányászat számára. A fejezet az asszociációs elemzés értékelési mérőszámainak tárgyalásával zárul. 7. fejezetben változatos haladó témákat tekintünk át, többek között hogyan alkalmazhatunk asszociációs elemzést kategorikus és folytonos adatokra, vagy olyan adatokra, ahol egy fogalom-hierarchia is adott. (A fogalom-hierarchia objektumok hierarchikus osztályozása, lásd például bolti áruk, ruházati termékek, cipők, tornacipők.) Ebben a fejezetben azt is bemutatjuk, hogyan terjeszthetjük ki az asszociációs elemzést szekvenciális mintázatokra (sorrendet is tartalmazó mintázatokra), gráfbeli mintázatokra és negatív kapcsolatokra (ha egy tétel jelen van, akkor egy másik nincs).

8. és 9. fejezetben a klaszterezést tárgyaljuk. 8. fejezetben először a klaszterek különböző típusait ismertetjük, majd három konkrét klaszterezési módszert mutatunk be: K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép, összevonó hierarchikus klaszterezés és DBSCAN. Ezt a klaszterező algoritmusok eredményeit ellenőrző módszerek megvitatása követi. További klaszterezéssel kapcsolatos fogalmakat és módszereket vizsgálunk meg 9. fejezetben, beleértve a fuzzy és valószínűségi klaszterezést, az önszerveződő térképeket (SOM -- Self-Organizing Maps), a gráf-alapú klaszterezést és a sűrűség-alapú klaszterezést. Megvitatjuk azokat a skálázhatósági kérdéseket és tényezőket is, amelyeket figyelembe kell venni amikor klaszterezési algoritmust választunk.

Az utolsó, 10. fejezet a rendellenesség-észlelésről szól. Néhány alapvető definíció után számos különböző rendellenesség-észlelési módszert ismertetünk: statisztikai, távolság-alapú, sűrűség-alapú és klaszterezés-alapú. A.-tól E.-ig terjedő mellékletekben rövid áttekintést adunk azokról a legfontosabb témákról, amelyeket a könyv egyes részeiben használunk: lineáris algebra, dimenzió-csökkentés, statisztika, regresszió és optimalizálás.

Az adatbányászat témaköre, bár viszonylag fiatal a statisztikához vagy a gépi tanuláshoz képest, túl nagy ahhoz, hogy egyetlen könyvben lefedjük. Az olyan, csak röviden érintett témakörökre vonatkozó válogatott hivatkozások, mint például az adatminőség, a megfelelő fejezetet követő irodalmi megjegyzésekben találhatóak. A könyv által nem tárgyalt olyan témákkal kapcsolatos hivatkozások, mint például az adatfolyamok adatbányászata és a magánszférát védő adatbányászat, ennek a fejezetnek az irodalmi megjegyzéseiben találhatóak.

Irodalmi megjegyzések

Az adatbányászat témája sok tankönyvet ihletett. Bevezető tankönyvek többek között Dunham [4734], Han és Kamber [4763], Hand és társai [4767], Roiger és Geatz [4866]. Az üzleti alkalmazásokra nagyobb hangsúlyt fektető adatbányászati könyvek közé tartozik Berry és Linoff [4692], Pyle [4857] és Parr Rud [4846]. A statisztikai tanulást hangsúlyozó könyvek többek között Cherkassky és Mulier [4713], valamint Hastie és társai [4769]. Egyes könyvek a gépi tanulásra vagy az alakfelismerésre helyeznek nagyobb nyomatékot, ilyen például Duda és társai [4732], Kantardzic [4794], Mitchell [4831], Webb [4915], valamint Witten és Frank [4919]. További szakkönyvek: Chakrabarti [4708] (web bányászat), Fayyad és társai [4877] (korai adatbányászati cikkek gyűjteménye), Fayyad és társai [5072] (vizualizáció), Grossman és társai [4936] (természet és műszaki tudományok), Kargupta és Chan [4876] (elosztott adatbányászat), Wang és társai [40] (bioinformatika), valamint Zaki és Ho [4938] (párhuzamos adatbányászat).

Számos adatbányászattal kapcsolatos konferencia ismert. Az ezen területnek szentelt néhány legfontosabb konferencia a következő: ACM SIGKDD (Association for Computing Machinery -- (Nemzetközi) Számítógéptudományi Társaság; Special Interest Groups on Knowledge Discovery and Data Mining -- Tudásfeltárással és adatbányászattal foglalkozó csoport) International Conference on Knowledge Discovery and Data Mining (KDD, Nemzetközi Tudásfeltárási és Adatbányászati Konferencia), IEEE (The Institute of Electrical and Electronics Engineers -- Villamosmérnökök (Nemzetközi) Egyesülete) International Conference on Data Mining (ICDM, Nemzetközi Adatbányászati Konferencia), SIAM (Society for Industrial and Applied Mathematics -- Ipari és Alkalmazott Matematikai Társaság) International Conference on Data Mining (SDM, Nemzetközi Adatbányászati Konferencia), European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD, Európai Konferencia az Adatbázisokból való Tudásfeltárás Elveiről és Gyakorlatáról), Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD, Csendes-óceán-Ázsiai Tudásfeltárási és Adatbányászati Konferencia). Adatbányászat cikkek olyan más jelentős konferenciákon is megjelennek, mint például az ACM SIGMOD/PODS (Special Interest Group on Management of Data -- Adatkezeléssel foglalkozó csoport; Symposium on Principles of Database Systems -- Szimpózium az Adatbáziskezelő-rendszerek Alapelveiről) konferencia, International Conference on Very Large Data Bases (VLDB, Nemzetközi Konferencia a Nagyon Nagy Adatbázisokról), Conference on Information and Knowledge Management (CIKM, Információ- és Tudásmenedzsment Konferencia), International Conference on Data Engineering (ICDE, Adatfeldolgozási Nemzetközi Konferencia), International Conference on Machine Learning (ICML, Nemzetközi Konferencia a Gépi Tanulásról) és National Conference on Artificial Intelligence (AAAI, Országos Mesterséges Intelligencia Konferencia).

Adatbányászati cikkeket tartalmazó folyóiratok többek között: IEEE Transactions on Knowledge and Data Engineering, Data Mining and Knowledge Discovery, Knowledge and Information Systems, Intelligent Data Analysis, Information Systems és Journal of Intelligent Information Systems.

Számos olyan általános adatbányászati cikk született, amely az adatbányászatnak más területekkel, különösen a statisztikával való kapcsolatát tisztázza. Fayyad és társai [4742] leírják, hogyan illeszthető be az adatbányászat a teljes tudásfeltárási folyamatba. Chen és társai [4879] az adatbányászat adatbázis szemléletű tárgyalását adják. Ramakrishnan és Grama [4862] az adatbányászat egy általános tárgyalását adja több szempontot is bemutatva. Hand [4766], akárcsak Friedman [4748], leírja miben tér el az adatbányászat a statisztikától. Lambert [4807] megvizsgálja, hogyan alkalmazható a statisztika nagy adatállományokra, és további megjegyzéseket fűz az adatbányászat és a statisztika viszonylagos szerepéről. Glymour és társai [4754] azokat a tanulságokat tekintik át, amelyeket a statisztika az adatbányászatnak nyújthat. Smyth és társai [4890] bemutatják hogyan hatottak az adatbányászat fejlődésére olyan új típusú adatok és alkalmazások, mint például az adatfolyamok, a gráfok és a szöveges állományok megjelenése. Az adatbányászatban felmerülő alkalmazásokat tekintik át Han és társai [4765], míg Smyth [4889] néhány adatbányászati kutatási kihívást mutat be. Wu és társai [4921] azt elemzik hogyan váltható gyakorlati eszközökké az adatbányászati kutatásban elért fejlődés. Adatbányászati szabványok a tárgyai Grossman és társai [4755] cikkének. Bradley [4697] adatbányászati algoritmusok nagy adatállományokra való skálázhatóságát elemzi.

Az újonnan felmerülő adatbányászati alkalmazásokkal új kihívások jönnek, amelyekkel foglalkozni kell. Például a magánéletnek az adatbányászati eredmények általi megsértésével kapcsolatos aggodalmak is fokozódtak az elmúlt években, különösen az olyan alkalmazási területeken mint a web-kereskedelem és az egészségügy. Ennek eredményeképpen egyre nagyobb az érdeklődés az olyan adatbányászati algoritmusok kifejlesztése iránt, amelyek tiszteletben tartják a felhasználó magánéletét. A titkosított vagy randomizált adatok bányászatának most kifejlődő módszerei magánszférát védő (privacy-preserving) adatbányászatként ismertek. Néhány általános hivatkozás ezen a területen többek között Agrawal és Srikant [4939], Clifton és társai [4937], valamint Kargupta és társai [4953]. Egy jó áttekintést ad Vassilios és társai [4969].

Az elmúlt években növekvő számú olyan alkalmazásnak voltunk tanúi, amelyek gyorsan állítanak elő folytonos adatfolyamokat. Adatfolyamokra példák a hálózati forgalom, a multimédiás adatfolyamok és a tőzsdei árfolyamok. Több kérdést kell figyelembe venni amikor adatfolyamokban bányászunk, többek között a korlátozottan rendelkezésre álló memóriát, az online elemzés szükségességét és az adatok idővel való módosulását. Az adatfolyamok adatbányászata az adatbányászat egy fontos területévé vált. Néhány válogatott publikáció Domingos és Hulten [4949] (osztályozás), Giannella és társai [4951] (asszociációs elemzés), Guha és társai [5001] (klaszterezés), Kifer és társai [4954] (változás észlelés), Papadimitriou és társai [4962] (idősorok), végül Law és társai [4956] (dimenziócsökkentés).

Feladatok

1. Vitassuk meg, hogy a következő tevékenységek adatbányászati feladatok-e vagy sem.

  1. Egy vállalat ügyfeleinek a felosztása a nemük alapján.

  2. Egy vállalat ügyfeleinek a felosztása a jövedelmezőségük alapján.

  3. Egy vállalat teljes forgalmának kiszámítása.

  4. Egy hallgatói adatbázis rendezése a hallgatói azonosító szám alapján.

  5. Egy pár (szabályos) kockával való dobás kimenetelének az előrejelzése.

  6. Egy vállalat jövőbeni tőzsdei értékének előrejelzése történeti adatok segítségével.

  7. Egy beteg szívverésének nyomon követése rendellenességek keresése miatt.

  8. Szeizmikus hullámok nyomon követése a földrengés tevékenységek észlelése miatt.

  9. Frekvenciák kinyerése egy hanghullámból.

2. Tegyük fel, hogy adatbányászati szakértőként dolgozunk egy internetes keresőmotort gyártó cégnél. Mutassuk meg, hogyan segíthet az adatbányászat a vállalatnak úgy, hogy konkrét példákat adunk arra, hogyan alkalmazhatóak olyan módszerek, mint a klaszterezés, az osztályozás, az asszociációs szabályok bányászata és a rendellenesség-észlelés.

3. Minden egyes adatállománynál magyarázza meg, hogy az adatvédelem fontos kérdés-e vagy sem.

  1. A népszámlálási adatok 1900 és 1950 között.

  2. Azon webes felhasználók IP-címei és látogatási alkalmai, akik felkeresték a honlapunkat.

  3. Képek a Föld körül keringő műholdakról.

  4. Emberek neve és címe a telefonkönyvben.

  5. Az internetről gyűjtött nevek és e-mail címek.

2. fejezet - Adatok

Ez a fejezet számos olyan adatokkal kapcsolatos kérdést tárgyal, melyek fontosak a sikeres adatbányászathoz:

Az adatok típusa Az adatállományok jó pár szempontból különbözhetnek egymástól. Például az adatobjektumok leírására használt attribútumok lehetnek különböző -- kvantitatív vagy kvalitatív -- típusúak, és az adatállomá-nyoknak lehetnek speciális jellemzőik is, például egyes adatállományokban lehetnek idősorok vagy egymással világos kapcsolatban álló objektumok. Nem meglepő módon az adatok típusa határozza meg, hogy mely eszközök és módszerek alkalmazhatóak az elemzésükre. Továbbá az adatbányászat területén végzett új kutatásokat is gyakran motiválja annak igénye, hogy új alkalmazási területekhez, és azok új adattípusaihoz alkalmazkodjunk.

Az adatok minősége Az adatok gyakran messze nem tökéletesek. Bár a legtöbb adatbányászati módszer egy bizonyos szintig tűri az adatok tökéletlenségét, ha az adatok megértésére és javítására helyezzük a hangsúlyt, általában az így kapott vizsgálati módszer minősége is javul. A gyakran felmerülő adatminőségi problémák közé tartoznak a zaj és kiugró értékek jelenléte; a hiányzó, inkonzisztens vagy duplikált adatok; és az olyan adatok, amelyek torzítottak vagy valamilyen más okból nem reprezentatívak arra a jelenségre vagy populációra nézve, amelyet le kellene írniuk.

Előfeldolgozási lépések annak érdekében, hogy az adatokat alkalmasabbá tegyük adatbányászat végzésére A nyers adatokat gyakran előfeldolgozásnak kell alávetnünk, hogy az elemzésre alkalmasak legyenek. A cél egyrészt lehet az adatminőség javítása, másrészt az adatok avégett történő módosítása, hogy egy bizonyos adatbányászati módszerhez vagy eszközhöz jobban illeszkedjenek. Előfordulhat például, hogy egy folytonos attribútumot, például a hosszúságot egy diszkrét kategóriákkal (úgymint rövid, közepes, vagy hosszú) rendelkező attribútumra kell leképezni azért, hogy egy bizonyos módszer alkalmazható legyen rá. Egy másik példa, hogy az adatállomány attribútumainak számát gyakran csökkenteni kell, mivel sok módszer hatékonyabban működik viszonylag kevés attribútummal rendelkező adatállományokon.

Az adatok elemzése belső kapcsolataik útján Az adatelemzés egyik megközelítése, hogy először feltárjuk az adatobjektumok közötti kapcsolatokat, és az elemzés hátralevő részét az objektumok helyett ezek felhasználásával hajtjuk végre. Kiszámolhatjuk például az objektumok közötti páronkénti hasonlóságot vagy távolságot, és azután az elemzés -- klaszterezés, osztályozás vagy rendellenesség-észlelés -- elvégezhető ezekre a hasonlóságokra vagy távolságokra alapozva. Sok ilyen hasonlóság- vagy távolságmérték van, a megfelelő kiválasztása az adatok típusától és a konkrét felhasználási területtől függ.

2.1. Példa (Az adatokkal kapcsolatos problémák egy szemléltető példája)

Hogy jobban megvilágítsuk ezen kérdések fontosságát, tekintsük a következő elképzelt helyzetet. A következő e-mailt kapjuk egy kutatóorvostól egy projekttel kapcsolatban, amiben nagyon szeretnénk részt venni:

Szia,

Csatoltam az adatfájlt, amit az előző e-mailemben említettem. Minden sorban egy páciensre vonatkozó adatok vannak, és minden sor öt mezőből áll. Az utolsó mező értékét akarjuk megjósolni a többi mező alapján. Nincs időm egyéb információkat adni az adatokról, mert el kell utaznom pár napra, de remélem ez nem fog nagyon hátráltatni. És ha nem gond, amikor visszajöttem, tudnánk találkozni, és beszélni az előzetes eredményeidről? Lehet, hogy a csoportom néhány más tagját is meghívom.

Előre is köszönöm és találkozunk néhány nap múlva.

Rossz előérzetünk ellenére megkezdjük az adatok elemzését. A fájl első pár sora a következő:

012

232

33,5

0

10,7

020

121

16,9

2

210,1

027

165

24,0

0

427,6

    

Első pillantásra semmi furcsa nem tűnik fel. Kétségeinket hátrahagyva megkezdjük az elemzést. Csak 1000 sor van, kevesebb, mint amit reméltünk, de két nappal később úgy érezzük, sikerült valamelyest előrehaladnunk. Megérkezünk a megbeszélésre, és miközben a többiekre várunk, beszélgetni kezdünk egy statisztikussal, aki szintén a projekten dolgozik. Mikor megtudja, hogy mi is foglalkoztunk a projekt adatainak elemzésével, megkérdezi, hogy röviden összefoglalnánk-e neki az eredményeinket.

Statisztikus: Szóval, megkapta minden páciens adatait?

Adatbányász: Igen. Nem sok időm volt az elemzésre, de van néhány érdekes eredményem.

Statisztikus: Lenyűgöző. Annyi adatprobléma volt ezzel a páciens populációval, hogy én nem sokat tudtam kezdeni vele.

Adatbányász: Ó, igen? Én nem hallottam semmiféle lehetséges problémáról.

Statisztikus: Hát, először is ott van az 5. mező, a változó, amit előre akarunk jelezni. Köztudott azok körében, akik ilyen típusú adatok elemzésével foglalkoznak, hogy sokkal jobb eredmények születnek, ha az értékek logaritmusával dolgoznak, de én ezt csak nemrég tudtam meg. Önnek ezt említették?

Adatbányász: Nem.

Statisztikus: De arról biztos tud, hogy mi történt a 4. mezővel? Egy 1-től 10-ig terjedő skálán kellett volna mérni, ahol 0 jelzi a hiányzó értéket, de egy adatbeviteli hiba miatt az összes 10-es helyén 0 van. Sajnos, mivel néhány betegnek tényleg hiányzik ez az adata, nem lehet megmondani, hogy melyik 0 valóban 0, és melyiknek kellene 10-nek lennie. Ez a probléma jó pár rekordot érint.

Adatbányász: Érdekes. Volt még más probléma is?

Statisztikus: Igen. A 2. és a 3. mező gyakorlatilag ugyanaz, bár gondolom ezt észrevette.

Adatbányász: Igen, de ezek a mezők csak gyenge prediktorai voltak az 5. mezőnek.

Statisztikus: Akárhogy is, ilyen problémák mellett meglep, hogy bármilyen eredményt el tudott érni.

Adatbányász: Hát igen, de az eredményeim tényleg elég jók. Az 1. mező nagyon erős prediktora az 5.-nek. Csodálkozom, hogy ezt eddig nem vették észre.

Statisztikus: Tessék? Az 1. mező csak egy azonosító szám.

Adatbányász: Mégis, az eredményeim magukért beszélnek.

Statisztikus: Ó nem! Most jut eszembe! A rekordokhoz azután rendeltük hozzá az azonosítókat, miután rendeztük őket az 5. mező értéke szerint. Így van egy erős kapcsolat, de az értelmetlen. Sajnálom.

Bár ez a forgatókönyv egy elég extrém helyzetet mutat be, mégis rámutat annak fontosságára, hogy ``ismerjük az adatainkat''. Ezzel bezárólag mind a négy fentebb említett problémát tárgyalja a fejezet, áttekintve néhány alapvető kihívást és alapvető megközelítést.

Adattípusok

Egy adatállomány gyakran tekinthető adatobjektumok egy kollekciójának. Az adatobjektum más elnevezései rekord, pont, vektor, minta, eset, előfordulás, elem, megfigyelés vagy egyed. Másfelől, az adatobjektumokat számos attribútum írja le, melyek az objektum alapvető tulajdonságait ragadják meg, mint például egy fizikai objektum tömege, vagy egy esemény bekövetkezésének ideje. Az attribútum más elnevezései változó, jellegzetesség, mező, jellemző vagy dimenzió.

2.2. Példa (Hallgatói adatok)

Az adatállomány gyakran egy fájl, aminek a fájlban lévő rekordok (vagy sorok) az objektumai, és minden mező (vagy oszlop) egy attribútumhoz tartozik. Például 2.1. táblán egy hallgatói adatokat tartalmazó adatállomány látható. Minden sor egy diákhoz tartozik, és minden oszlop egy attribútum, ami az adott hallgatót leírja valamilyen szempontból, mint például a tanulmányi átlag (GPA) vagy az azonosító szám (ID).

2.1. táblázat - Hallgatói információkat tartalmazó minta adatállomány

Hallgató azonosító

Év

Tanulmányi átlag (GPA)

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@

1034262

Végzős

3,24

1052663

Másodéves

3,51

1082246

Gólya

3,62

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@


Bár a rekordalapú adatállományok jelentik a szokásos megoldást egyszerű fájlokban és relációs adatbázis-kezelő rendszerekben egyaránt, az adatállományoknak és az adattároló rendszereknek más fontos típusai is léteznek. 2.1.2 szakaszban néhány olyan adatállománytípust fogunk tárgyalni, amelyekkel az adatbányászat során általában találkozhatunk. Azonban először az attribútumokat tekintjük át.

Attribútumok és mérésük

Ebben a részben abból a szempontból tárgyaljuk az adatok leírását, hogy milyen attribútumtípusok használatosak az adatobjektumok leírásánál. Először az attribútumot definiáljuk, majd azt tekintjük át, hogy mit értünk egy attribútum típusa alatt, végül pedig leírjuk a gyakran előforduló attribútumtípusokat.

Mi az attribútum?

Először az attribútum egy részletesebb definícióját tekintjük.

2.1. Definíció. Egy attribútum egy objektum olyan tulajdonsága vagy jellemzője, amely objektumonként és időben egyaránt változhat. Például a szemszín személyenként különböző, míg egy tárgy hőmérséklete idővel változik. Megjegyezzük, hogy a szemszín egy szimbolikus érték, viszonylag kevés lehetséges értékkel: {barna,fekete,ke'k,z o ¨ ld,mogyoro',stb.} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaadkgacaWGHbGaamOCaiaad6gacaWGHbGaaiilaiaadAgacaWGLbGaam4AaiaadwgacaWG0bGaamyzaiaacYcacaWGRbGaamyzaiaabEcacaWGRbGaaiilaiaadQhaceWGVbWdayaadaWdbiaadYgacaWGKbGaaiilaiaad2gacaWGVbGaam4zaiaadMhacaWGVbGaamOCaiaad+gacaqGNaGaaiilaiaadohacaWG0bGaamOyaiaac6cacaGG9baaaa@57F6@ , míg a hőmérséklet egy numerikus attribútum, végtelen sok lehetséges értékkel.

A legelemibb szinten az attribútumok nem számokról és szimbólumokról szólnak, azonban az objektumok jellemzőinek tárgyalásához és pontosabb elemzéséhez számokat vagy szimbólumokat rendelünk hozzájuk. Ahhoz, hogy ezt jól definiált módon végezhessük, mérési skálára van szükségünk.

2.2. Definíció. A mérési skála (measurement scale) egy olyan szabály (függvény), ami egy numerikus vagy szimbolikus értéket rendel hozzá egy objektum egy attribútumához. Formálisan a mérés folyamata azt jelenti, hogy egy mérési skála alkalmazásával egy értéket rendelünk hozzá egy adott objektum egy konkrét attribútumához. Bár ez kicsit elvontnak tűnhet, rendszeresen alkalmazunk mérési eljárásokat. Például rálépünk a fürdőszobai mérlegre, hogy meghatározzuk a súlyunkat, valakit besorolunk mint férfit vagy nőt, vagy megszámoljuk a székeket egy szobában, hogy eldöntsük, egy megbeszélés összes résztvevőjét le tudjuk-e majd ültetni. Mindezen esetekben leképeztük egy objektum egy attribútumának ``fizikai értékét'' egy numerikus vagy szimbolikus értékre.

Ezzel a háttérrel már tárgyalhatjuk az attribútumok típusát, melynek fogalma fontos annak meghatározásához, hogy egy bizonyos adatelemzési módszer konzisztens-e egy speciális attribútumtípussal.

Az attribútumok típusa

Az előzőek alapján nyilvánvaló, hogy egy attribútum és a mérésére használt értékek tulajdonságai nem kell, hogy megegyezzenek. Más szóval, egy attribútumot reprezentáló értékeknek lehetnek olyan tulajdonságai, amelyek nem igazak az attribútumra és fordítva. Ezt két példával szemléltetjük.

2.3. Példa (Alkalmazottak életkora és azonosító száma)

Az azonosító szám (ID) és az életkor (években) két olyan attribútum, amelyeket hozzárendelhetünk egy alkalmazotthoz. Mindkét attribútumot ábrázolhatjuk egész számként. Azonban amíg ésszerű az alkalmazottak átlagéletkoráról beszélni, az átlagos azonosítónak nincs értelme. Sőt, valójában az egyetlen szempont, melyet le akarunk írni az azonosítóval, az az, hogy különbözőek-e. Ennek következményeképpen az egyetlen érvényes művelet az alkalmazottak azonosítóira az egyenlőségük ellenőrzése. Amikor azonban az alkalmazott azonosító attribútumot egész számokkal ábrázoljuk, nincs semmilyen utalás erre a megszorításra. Az életkor attribútum esetén az ábrázoláshoz használt egész számok tulajdonságai nagyon hasonlóak az attribútum tulajdonságaihoz. De még így sem teljes az egyezés, mivel például az életkornak van egy maximális értéke, míg az egészeknek nincs.

2.4. Példa (Szakaszok hossza)

Tekintsük a 2.1. ábrát, amelyen néhány objektum -- szakasz -- látható, továbbá az, hogy ezek hosszúság attribútuma hogyan képezhető le számokra két különböző módon. Felülről lefelé haladva minden rákövetkező szakasz úgy áll elő, hogy az azt megelőzőhöz hozzáfűzzük a legfelső szakaszt. Így a felülről második szakasz úgy áll elő, hogy a legfelső szakaszt önmagával kétszer fűzzük össze, a harmadik úgy, hogy a legfelső szakaszt önmagával háromszor fűzzük össze, és így tovább. Egy nagyon is valós (fizikai) értelemben ez azt jelenti, hogy minden szakasz az első többszöröse. Ezt a tényt tükrözik az ábra jobb oldalán lévő mérések, a bal oldaliak viszont nem. Pontosabban, a bal oldali mérési skála csak a hosszúság attribútum rendezési tulajdonságát tükrözi, míg a jobb oldali skála a rendezési és additív tulajdonságait is. Tehát egy attribútum mérhető olyan módon, mely nem tükrözi az attribútum minden tulajdonságát.

2.1. ábra - Szakaszok hosszának mérése két különböző mérési skálán

Szakaszok hosszának mérése két különböző mérési skálán

Egy attribútum típusából ki kellene, hogy derüljön, milyen tulajdonságai tükröződnek vissza a mérésére használt értékekben. Azért fontos, hogy ismerjük az attribútum típusát, mert az meghatározza, hogy a mért értékek mely tulajdonságai konzisztensek az attribútum alaptulajdonságaival, ezáltal elkerülhetővé teszi az olyan értelmetlen tevékenységeket, mint az alkalmazottak átlagos azonosítójának kiszámítása. Megjegyezzük, hogy egy attribútum típusára általában egy mérési skála típusként hivatkozunk.

Az attribútumok különböző típusai

Egy attribútum típusának meghatározására hasznos (és egyszerű) módszer, hogy azonosítjuk az attribútum alaptulajdonságainak megfelelő számok tulajdonságait. Egy olyan attribútum például, mint a hosszúság, a számok sok tulajdonságával rendelkezik. Van értelme az objektumok hosszúsága összehasonlításának és rendezésének, mint ahogy a különbségeik és hányadosaik tárgyalásának is. Jellemzően a számok következő tulajdonságait (műveleteit) alkalmazzák attribútumok leírására:

  1. Különbözőség: = MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyypa0daaa@3710@ és MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyiyIKlaaa@37D1@

  2. Rendezés: < MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyipaWdaaa@370E@ , MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyizImkaaa@37BF@ , > MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOpa4daaa@3712@ és MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyyzImlaaa@37D0@

  3. Összeadás: + MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaey4kaScaaa@36EC@ és MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOeI0caaa@36F7@

  4. Szorzás: * MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeOkaaaa@36B7@ és / MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4laaaa@36BD@

Ezen tulajdonságok alapján négy attribútumtípust tudunk definiálni: névleges (nominális) , sorrendi (ordinális) , intervallum és hányados. A 2.2. táblázatban ezen típusok definícióit, továbbá az egyes típusokra alkalmazható statisztikai műveletekkel kapcsolatos információkat találhatunk. Minden attribútumtípus rendelkezik a felette lévő attribútumtípusok minden tulajdonságával és műveletével. Ebből következik, hogy bármely, névleges, sorrendi és intervallum típusú attribútumokra érvényes tulajdonság vagy művelet érvényes hányados típusú attribútumokra is. Más szóval, az attribútumtípusok definíciója halmozódó. Ez nem jelenti azonban azt, hogy adott attribútumtípusra alkalmazható műveletek alkalmazhatóak a felette lévő attribútumtípusokra is.

A névleges és sorrendi attribútumokat gyűjtőnéven kategorikus vagy kvalitatív attribútumoknak is nevezik. Ahogy a név is sejteti, a kvalitatív attribútumokból, mint például az alkalmazott azonosító, hiányzik a számok tulajdonságainak nagy része. Még ha számokkal is vannak ábrázolva, úgymint egész számokkal, inkább szimbólumokként kell őket kezelnünk. A két fennmaradó attribútumtípust, az intervallum és a hányados típusokat nevezik gyűjtőnéven kvantitatív vagy numerikus attribútumoknak. A kvantitatív attribútumokat számokkal ábrázolják és rendelkeznek a számok legtöbb tulajdonságával. Megjegyezzük, hogy a kvantitatív attribútumok lehetnek egész értékűek vagy folytonos értékűek.

Abban az értelemben is tekinthetjük az attribútumok típusait, hogy mely transzformációk nem változtatják meg az attribútum jelentését. Valójában S. Smith Stevens pszichológus, aki a 2.2. táblázatban látható attribútumtípusokat eredetileg definiálta, ezen megengedhető transzformációk alapján alkotta meg definícióit. Például egy hosszúság attribútum értelmén nem változtat, hogy méterben vagy lábban mérjük.

Azoknak a statisztikai műveleteknek lesz értelme egy bizonyos attribútumtípuson, amelyek ugyanazt az eredményt szolgáltatják azután is, hogy egy olyan transzformációt alkalmaztunk az attribútumra, mely megőrzi annak jelentését. Szemléltetésképpen, egy objektumhalmaz átlagos hossza más lesz ha méterben, és nem lábban mérjük, de mindkét átlagérték ugyanazt a hosszt jelenti. A 2.3. táblázat mutatja a megengedhető (a jelentést megőrző) transzformációkat a 2.2. táblázatban megadott négy attribútumtípusra.

2.5. Példa (Hőmérsékleti skálák)

A hőmérséklet példáján keresztül jól szemléltethető néhány fentebb leírt fogalom. Először is a hőmérséklet a mérési skálától függően lehet intervallum vagy hányados típusú attribútum is. Ha a Kelvin skálán mérjük, a 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGOma8aadaahaaWcbeqaa8qacqWIyiYBaaaaaa@384C@ -os hőmérséklet fizikai értelemben az 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGyma8aadaahaaWcbeqaa8qacqWIyiYBaaaaaa@384B@ -os hőmérséklet duplája. Ez nem igaz ha akár a Celsius, akár a Fahrenheit skálán mérünk, mert fizikai értelemben az 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGyma8aadaahaaWcbeqaa8qacqWIyiYBaaaaaa@384B@ Fahrenheit (Celsius) és a 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGOma8aadaahaaWcbeqaa8qacqWIyiYBaaaaaa@384C@ Fahrenheit (Celsius) között nem sok különbség van. A probléma az, hogy fizikai szempontból a Fahrenheit és a Celsius skálák nulla pontjai önkényesen kijelöltek, és így két Celsiusban vagy Fahrenheitben mért hőmérsékleti érték hányadosa fizikai értelemben nem bír jelentéssel.

Attribútumok leírása az értékek számával

Az attribútumok megkülönböztetésének egy független módja, ha az általuk felvehető értékek számára alapozunk.

Diszkrét attribútumok Egy diszkrét attribútumnak véges vagy megszámlálhatóan végtelen sok értéke lehet. Az ilyen attribútumok lehetnek kategorikusak, mint például az irányítószámok, azonosító számok, vagy numerikusak, mint például a darabszámok. A diszkrét attribútumokat gyakran ábrázolják egész típusú változókkal. A diszkrét attribútumok speciális esetei a bináris attribútumok, amelyek csak két értéket feltételeznek, például igaz/hamis, igen/nem, férfi/nő vagy 0/1. A bináris attribútumokat gyakran ábrázolják Boole típusú változókkal, vagy olyan egész típusú változókkal, amelyek csak a 0 és 1 értékeket vehetik fel.

Folytonos attribútumok A folytonos attribútumok értékei valós számok. Ide tartoznak például az olyan attribútumok, mint a hőmérséklet, a magasság vagy a súly. A folytonos attribútumokat jellemzően lebegőpontos változókkal ábrázolják. A gyakorlatban a valós értékek csak korlátozott pontossággal mérhetőek és ábrázolhatóak.

Elméletben minden mérési skála típus -- névleges, sorrendi, intervallum és hányados -- kombinálható az attribútumértékeken alapuló típusok -- bináris, diszkrét és folytonos -- mindegyikével. Azonban némely kombináció csak nagyon ritkán jelenik meg, vagy nem sok értelme van. Például nehéz olyan valós adatállományt mondani, amelyben található folytonos bináris attribútum. A névleges és sorrendi attribútumok jellemzően binárisak vagy diszkrétek, míg az intervallum és hányados attribútumok jellemzően folytonosak. Azonban a darabszám attribútumok, amelyek diszkrétek, hányados típusúak is egyben.

Aszimmetrikus attribútumok

Aszimmetrikus attribútumoknál csak az előfordulást -- a nem nulla attribútumértéket -- tekintjük fontosnak. Tekintsünk egy olyan adatállományt, melyben minden objektum egy hallgató, és az egyes attribútumok azt tartják nyilván, hogy a hallgató részt vett-e egy adott kurzuson egy egyetemen. Egy meghatározott hallgatónál 1 értékű az attribútum, ha a hozzárendelt kurzust elvégezte a hallgató, egyébként pedig 0 értékű. Mivel a hallgatók csak kis hányadát veszik fel az összes hozzáférhető kurzusnak, egy ilyen adatállományban az értékek legtöbbje 0 lenne. Így értelmesebb és hatékonyabb a nem nulla értékekre koncentrálni. Szemléltetésképpen, ha a hallgatókat azon kurzusok alapján hasolítjuk össze, amelyeket nem vettek fel, akkor a legtöbb hallgató nagyon hasonlónak tűnne, legalábbis ha nagy a kurzusok száma. Az olyan bináris attribútumokat, amelyeknél csak a nem nulla értékek lényegesek, aszimmetrikus bináris attribútumoknak nevezzük. Ez az attribútumtípus különösen fontos 6. fejezetben tárgyalt asszociációs elemzésben. Használhatunk diszkrét és folytonos aszimmetrikus jellemzőket is, például ha eltároljuk az egyes kurzusokhoz tartozó krediteket, az így kapott adatállomány aszimmetrikus diszkrét vagy folytonos attribútumokból fog állni.

Az adatállományok típusai

Az adatállományoknak sok típusa létezik, és ahogy az adatbányászat területe fejlődik és egyre kiforrottabb lesz, adatállományok egyre szélesebb választéka válik hozzáférhetővé az elemzés számára. Ebben a részben leírunk néhányat a leggyakoribb típusok közül. Kényelmi megfontolásokból három csoportba soroltuk az adatállományok típusait: rekord típusú, gráfalapú és rendezett adatok. Ezek a kategóriák nem fednek le minden lehetséges típust, és természetesen lehetségesek más csoportosítások is.

Az adatállományok általános jellemzői

Mielőtt rátérünk az adatállományok konkrét típusainak részletezésére, három olyan tulajdonságot tárgyalunk, amelyek számos adatállományra érvényesek, és szignifikáns hatással vannak arra, hogy milyen adatbányászati módszereket alkalmazunk: ezek a dimenzió, a ritkaság és a felbontás.

Dimenzió Egy adatállomány dimenziója az adatállomány objektumainak attribútumszáma. A kis dimenziószámú adatok általában kvalitatív szempontból különböznek a közepes vagy magas dimenziójú adatoktól. Valójában a magas dimenziójú adatok elemzése során felmerülő nehézségekre gyakran hivatkozunk dimenzió problémaként. Ez az oka annak, hogy az adatok előfeldolgozásának egyik fontos motivációja a dimenziócsökkentés. Ezek kérdéseit mélyebben is tárgyaljuk a fejezet későbbi részében és a B. függelékben.

Ritkaság Néhány adatállományban, mint például az olyanokban, amelyekben aszimmetrikus elemek vannak, egy objektum legtöbb attribútumának értéke 0; sok esetben a bejegyzések kevesebb mint 1%-a nem nulla. Gyakorlati szempontból a ritkaság előny, mivel általában csak a nem nulla elemeket kell letárolni és kezelni. Ez jelentős megtakarításokhoz vezet a számítási idő és a tárolás területén, továbbá néhány adatbányászati algoritmus csak ritka adatokon működik jól.

Felbontás Sűrűn előfordul, hogy az adatok csak különböző felbontásban hozzáférhetőek, és az adatok tulajdonságai gyakran eltérőek különböző felbontások mellett. Például a Föld felszíne pár méteres felbontásnál nagyon egyenetlennek tűnik, de több tíz kilométeres felbontásnál viszonylag sima. Az adatállományban található mintázatok szintén függenek a felbontás szintjétől. Ha a felbontás túl finom, akkor egy mintázat láthatatlan lehet vagy elveszhet a zajban; viszont ha a felbontás túl durva, akkor a mintázat eltűnhet. Például egy órákra osztott skálán tekintve a légnyomás változásai a viharok és egyéb időjárási rendszerek mozgását jelzik, míg egy hónapokra osztott skálán ezek a jelenségek nem érzékelhetőek.

Rekord adatok

Számos adatbányászati munka feltételezi, hogy az adatállomány rekordok (adatobjektumok) egy gyűjteménye, és azok mindegyike adatmezők (attribútumok) egy rögzített halmazából áll. (Lásd a 2.2. (a) ábrát.) A rekord adatok legegyszerűbb formájában nincs explicit kapcsolat a rekordok vagy az adatmezők között, és minden rekord (objektum) ugyanazzal az attribútumhalmazzal rendelkezik. A rekord típusú adatokat általában egyszerű (flat) fájlokban vagy relációs adatbázisokban tárolják. Egy relációs adatbázis nyilván több mint egy rekordgyűjtemény, de az adatbányászat során gyakran semmit nem használnak fel a relációs adatbázisban elérhető pluszinformációkból. Az adatbázis leginkább a rekordok tárolására alkalmas helyként szolgál. A rekord típusú adatok különböző típusait írja le és illusztrálja a lentebb látható a 2.2. ábra.

2.2. ábra - Különböző variációk rekord típusú adatokra

Különböző variációk rekord típusú adatokra

Tranzakciós vagy vásárlói kosár adatok A tranzakciós adatok a rekordadatok egy olyan speciális fajtáját képezik, ahol minden rekordban (tranzakcióban) tételek egy halmaza található. Tekintsünk egy élelmiszerboltot. Azok a termékek, amelyeket egy vásárló egy bevásárló körútja során vásárolt, képeznek egy tranzakciót, míg az egyes megvásárolt termékek a tételek. Ezt az adattípust vásárlói kosár adatoknak hívjuk, mert minden egyes rekord tételeit valaki ``bevásárló kosarában'' lévő termékek adják. A tranzakciós adatok tételhalmazok egy gyűjteményét jelentik, de tekinthetők olyan rekordok egy halmazának is, amelyek mezői aszimmetrikus attribútumok. Az attribútumok legtöbbször binárisak, azt jelezve, hogy adott tételt megvásárolták-e vagy sem, de általánosabban az attribútumok lehetnek diszkrétek vagy folytonosak is, mint például a vásárolt árucikkek mennyisége, vagy az ezekre az árucikkekre költött összegek. A 2.2. (b) ábrán egy példa látható tranzakciós adatállományra. Az állomány minden sora egy konkrét vásárló egy konkrét időpontban történt vásárlásait reprezentálja.

Az adatmátrix Ha egy adatkollekcióban az adatobjektumok mind ugyanazzal a rögzített numerikus attribútumhalmazzal rendelkeznek, akkor az adatobjektumok tekinthetőek pontokként (vektorokként) egy többdimenziós térben, ahol minden dimenzió egy, az objektumot leíró attribútumot reprezentál. Ilyen adatobjektumok egy halmaza tekinthető egy m×n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaiabgEna0kaad6gaaaa@3A06@ -es mátrixként, melynek m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ sora van, objektumonként egy, és n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaaaa@36FD@ oszlopa, attribútumonként egy. (Az a reprezentáció is megfelelő, amelyben az adatobjektumokhoz tartoznak az oszlopok és az attribútumokhoz a sorok.) Az ilyen mátrixot adatmátrixnak vagy mintamátrixnak nevezzük. Az adatmátrix a rekord típusú adatok egy változata, de mivel numerikus attribútumokból áll, az adatok transzformálására és manipulálására standard mátrixműveletek alkalmazhatóak. Következésképpen, az adatmátrix a legtöbb statisztikai adat standard adatformátuma. A 2.2. (c) ábrán látható egy példa egy adatmátrixra.

A ritka adatmátrix A ritka adatmátrix az adatmátrix egy olyan speciális esete, melyben az attribútumok egyforma típusúak és aszimmetrikusak, azaz csak a nem nulla értékeik lényegesek. A tranzakciós adatok egy példa olyan ritka adatmátrixra, amelynek csak 0 és 1 eleme van. Egy másik gyakori példa a dokumentum adatok. Nevezetesen, ha figyelmen kívül hagyjuk a kifejezések (szavak) sorrendjét egy adott dokumentumban, akkor a dokumentumot ábrázolhatjuk egy kifejezésvektorként, amelyben minden kifejezés a vektor egy koordinátája (attribútuma), és minden koordináta értéke a hozzá tartozó kifejezés előfordulásainak száma a dokumentumban. Egy dokumentumgyűjtemény ezen reprezentációját gyakran dokumentum-kifejezés mátrixnak nevezik. A 2.2. (d) ábrán ilyen dokumentum-kifejezés mátrixra láthatunk egy példát. Ebben a mátrixban a dokumentumok a sorok, a kifejezések az oszlopok. A gyakorlatban a ritka adatmátrixokból csak a nem nulla elemek kerülnek tárolásra.

Gráfalapú adatok

Néha az adatok reprezentációjára kényelmes és hatásos módnak bizonyulhat egy gráf. Két konkrét esetet tárgyalunk: amikor (1) a gráf az adatobjektumok közötti kapcsolatokat tartalmazza, és (2) magukat az adatobjektumokat reprezentáljuk gráfokkal.

Adatok objektumok közötti kapcsolatokkal Az objektumok közötti kapcsolatok gyakran hordoznak fontos információkat. Ilyen esetekben az adatokat gyakran gráfként reprezentálják, mégpedig úgy, hogy az adatobjektumokat a gráf csúcsaira képezik le, míg az objektumok közötti kapcsolatokat az objektumok közötti élek és azok tulajdonságai, mint például irány vagy súly, írják le. Tekintsük a Világháló weboldalait, amelyek szöveget és más oldalakra történő hivatkozásokat egyaránt tartalmaznak. Ahhoz, hogy fel tudják dolgozni a keresési kulcsszavakat, a webes keresőmotorok összegyűjtik és feldolgozzák a weboldalakat és kinyerik a tartalmukat. Köztudott azonban, hogy az oldalakról kiinduló és az oda irányuló hivatkozások igen nagy mennyiségű információt szolgáltatnak arról, hogy a weboldal az adott keresésre nézve mennyire fontos, és így azokat is figyelembe kell venni. A 2.3. (a) ábrán összekapcsolt weboldalak egy csoportja látható.

Adatok gráfobjektumokkal Ha az objektumoknak struktúrája van, azaz alobjektumokat tartalmaznak, amelyek között kapcsolatok vannak, ezeket az objektumokat gyakran reprezentálják gráfokkal. Egy kémiai vegyület például reprezentálható egy gráffal, ahol a csúcsok az atomok, és a csúcsok közötti élek a kémiai kötések. 2.3. (b) ábra a benzin molekulájának ``golyó és pálcika'' modellje látható, melyben szén (fekete) és hidrogén (szürke) atomok vannak. Gráfreprezentációval lehetőségünk van annak meghatározására, hogy vegyületek egy csoportjában mely alstruktúrák fordulnak elő nagy gyakorisággal, és annak kiderítésére, hogy ezek bármelyikének jelenléte összefügg-e bizonyos kémiai tulajdonságok meglétével vagy hiányával, mint például olvadáspont vagy képződési hő. Az alstruktúra bányászattal, amely az adatbányászat ilyen adatok elemzésével foglalkozó ága, 7.5. szakaszban foglalkozunk.

2.3. ábra - Különböző variációk gráfadatokra

Különböző variációk gráfadatokra

Rendezett adatok

Egyes adattípusoknál az attribútumok kapcsolatai között szerepel azok tér- vagy időbeli rendezettsége is. A következőkben leírt különböző rendezett adattípusok a 2.4. ábrán láthatóak.

2.4. ábra - Különböző variációk rendezett adatokra

Különböző variációk rendezett adatokra

Szekvenciális adatok A szekvenciális adatok, vagy más néven időbeli adatok a rekord típusú adatok egy olyan kiterjesztésének tekinthetőek, ahol minden rekordhoz egy időpont van hozzárendelve. Tekintsünk egy kiskereskedelmi tranzakciós adatállományt, mely azt is eltárolja, hogy a tranzakció mikor ment végbe. Ez az időinformáció lehetővé teszi, hogy olyan mintákat tárjunk fel, mint például ``a cukorkák eladásának csúcspontja Halloween előtt van''. Időpontot is rendelhetünk minden egyes attribútumhoz. Tárolhatjuk például az egyes rekordokban egy vevő vásárlási előzményeit, melyekben különböző időpontokban vásárolt tételek vannak felsorolva. Az ilyen információk segítségével tárhatóak fel az ``akik DVD lejátszót vesznek, jellemzően DVD-ket is vesznek a közvetlenül ezt követő periódusban'' típusú mintázatok.

A 2.4. (a) ábrán látható egy példa szekvenciális tranzakciós adatokra. Itt öt különböző időpont -- t1, t2, t3, t4 és t5; három különböző vásárló -- C1, C2 és C3; és öt különböző tétel -- A, B, C, D és E látható. A felső táblázatban minden sorhoz az adott időpillanatban, adott vásárló által vásárolt tételek tartoznak. Például a t3 időpillanatban a C2 vásárló az A és D tételeket vásárolta meg. Az alsó táblázatban ugyanez az információ található, de itt minden sor egy adott vásárlóhoz tartozik. Minden sor az adott vásárlóhoz tartozó minden egyes tranzakcióra vonatkozóan tartalmaz információkat, ahol egy tranzakció tételek egy halmazát és a tételek megvásárlásának időpontját jelenti. Például a C3 vásárló az A és C tételeket vásárolta meg a t2 időpontban.

Sorrendi adatok A sorrendi adatokat olyan adathalmazok alkotják, melyek önálló entitások sorozatai, mint például egy szó- vagy betűsorozat. Nagyon hasonlóak a szekvenciális adatokhoz, azt leszámítva, hogy itt nincsenek időbélyegek, hanem helyettük a rendezett sorozatban elfoglalt pozíciók vannak. Például növények és állatok genetikai információit ábrázolhatjuk a génekként ismert nukleotidok sorozataként. Sok feladatnak, amely génszekvencia adatokhoz kapcsolódik, részfeladata a gének funkciójában és felépítésében fellelhető hasonlóságok előrejelzése a nukleotidláncok hasonlóságai alapján. 2.4. (b) ábrán az emberi génállomány egy részlete látható a minden DNS-t felépítő A, T, G és C nukleotidok sorozatával kifejezve.

Idősor adatok Az idősor adatok a szekvenciális adatok egy olyan speciális típusát jelentik, amelyekben minden rekord egy idősor, azaz időben elvégzett mérések egy sorozata. Például egy pénzügyi adatállomány tartalmazhat olyan idősor objektumokat, amelyek különböző részvények napi áraira vonatkoznak. Másik példaként tekintsük a 2.4. (c) ábrát, melyen Minneapolis átlagos havi középhőmérsékletének idősora látható az 1982-től 1994-ig terjedő időszakban. Amikor hőmérsékleti adatokkal dolgozunk, fontos figyelembe venni az időbeli autokorrelációt, azaz hogy ha két mérés egymáshoz időben közel van, akkor a mérések értékei gyakran nagyon hasonlóak.

Térbeli adatok Egyes objektumok rendelkeznek olyan térbeli attribútumokkal, mint például helyzet vagy terület és más egyéb attribútumtípusok. Térbeli adatok például az időjárási adatok (csapadék, hőmérséklet, nyomás), melyeket számos földrajzi helyen gyűjtenek. A térbeli adatok fontos jellemzője a térbeli autokorreláció, azaz hogy az egymáshoz fizikailag közel lévő objektumok jellemzően más szempontokból is hasonlóak. Így a Föld két egymáshoz közel fekvő pontja rendszerint hasonló hőmérséklet és csapadék értékekkel bír.

A térbeli adatok fontos példáit képezik az olyan tudományos és műszaki adatállományok is, amelyek egy két- vagy háromdimenziós rács vagy háló szabályosan vagy szabálytalanul elosztott pontjaiban végzett mérések vagy modellezés eredményeinek feljegyzésével jönnek létre. A Földdel foglalkozó tudományos adatállományok például különböző felbontású szélességi-hosszúsági gömbrácsok pontjaiban (rácscelláiban) tartják nyilván a hőmérsékletet és a nyomást, a 2.4. (d) ábrán például 1 × 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGyma8aadaahaaWcbeqaa8qacqWIyiYBaaGccqGHxdaTcaaIXaWdamaaCaaaleqabaWdbiablIHiVbaaaaa@3CAD@ -os felbontásban. Másik példaként, egy gáz áramlásának szimulációja során az áramlás iránya és sebessége feljegyezhető a szimuláció minden rácspontjában.

Nem rekord típusú adatok kezelése

A legtöbb adatbányászati algoritmust rekord adatokhoz, vagy azok valamilyen változatához, például tranzakciós adatokhoz vagy adatmátrixokhoz tervezték. A rekordorientált módszerek alkalmazhatóak nem rekord típusú adatokra is úgy, hogy az adatobjektumokból kinyerjük a jellemzőiket, és ezeket felhasználva minden objektumhoz létrehozunk egy hozzá tartozó rekordot. Tekintsük a fentebb leírt kémiai szerkezeti adatokat. Ha adott a gyakori alszerkezetek egy halmaza, minden vegyület leírható egy olyan bináris attribútumokból álló rekorddal, amelyek jelzik, hogy egy vegyület tartalmazza-e az adott alszerkezetet. Ez a reprezentáció tulajdonképpen egy tranzakciós adatállomány, ahol a vegyületek a tranzakciók, és az alstruktúrák a tételek.

Egyes esetekben könnyű rekord alakban ábrázolni az adatokat, de ez a reprezentáció nem adja vissza az adatokban rejlő összes információt. Tekintsünk olyan tér-időbeli adatokat, amelyek egy térbeli rács minden pontján egy-egy idősorból állnak. Az ilyen adatokat gyakran tárolják egy olyan adatmátrixban, amelyben minden sor egy helyet, és minden oszlop egy konkrét időpontot jelöl. Ez a reprezentáció azonban nem ragadja meg explicit módon sem az attribútumok közötti időbeli kapcsolatokat, sem az objektumok közötti térbeli kapcsolatokat. Ez nem jelenti azt, hogy ez a fajta reprezentáció nem megfelelő, inkább azt, hogy ezeket a kapcsolatokat figyelembe kell venni az elemzés során. Nem jó ötlet például olyan adatbányászati módszert alkalmazni, amely azt feltételezi, hogy az attribútumok statisztikailag függetlenek egymástól.

Adatminőség

Gyakran alkalmazunk adatbányászati módszereket olyan adatokra, amelyeket más célra vagy későbbi, még nem meghatározott célokra gyűjtöttek össze. Ebből kifolyólag az adatbányászat során általában nem tudjuk élvezni annak jelentős előnyeit, amikor a ``minőségi problémákat a forrásnál kezeljük''. Ezzel ellentétben a statisztika jelentős része foglalkozik kísérlet- és kérdőívtervezéssel, amellyel egy előre meghatározott adatminőségi szint érhető el. Mivel általában nincs lehetőség az adatminőségi problémák megelőzésére, az adatbányászat (1) az adatminőségi problémák felismerésére és javítására, és (2) az alacsony adatminőséget toleráló algoritmusok használatára fekteti a hangsúlyt. Az első lépést, a felismerést és a javítást, gyakran adattisztításnak (data cleaning) nevezik.

A következő szakaszokban az adatminőség különböző szempontjaival foglalkozunk. A hangsúlyt a mérésre és az adatgyűjtésre helyezzük, bár tárgyalunk néhány alkalmazással kapcsolatos kérdést is.

A mérés és adatgyűjtés kérdései

Irreális lenne azt várni, hogy az adatok tökéletesek lesznek. Felmerülhetnek problémák emberi hibák, a mérőműszerek korlátai vagy az adatgyűjtési folyamat hibái miatt is. Egyes értékek, vagy akár egész adatobjektumok hiányozhatnak. Más esetekben lehetnek hibás vagy duplikált objektumok, azaz több olyan adatobjektum, melyek mind egy ``valódi'' objektumnak felelnek meg. Szerepelhet például két különböző rekord egy olyan személyhez, aki a közelmúltban két különböző címen lakott. Még akkor is lehetnek inkonzisztenciák, ha minden adat megvan, és ``jónak tűnik'' -- például valaki magassága 2 méter, de súlya csak 2 kg.

A következő néhány szakaszban az adatminőséget a mérés és az adatgyűjtés oldaláról közelítjük meg. Először a mérési és az adatgyűjtési hibát definiáljuk, majd áttekintünk néhány mérési hibából következő problémát, úgymint zaj, technikai hibák, torzítás, pontosság és helyesség. Végül olyan adatminőségi problémákkal foglalkozunk, melyek mérési és adatgyűjtési problémák együttes eredményei: ilyenek a kiugró értékek, a hiányzó és inkonzisztens értékek és a duplikált adatok.

Mérési és adatgyűjtési hibák

A mérési hiba, mint kifejezés, minden olyan problémára utal, amely a mérési folyamat eredményeként merül fel. Általános probléma, hogy a feljegyzett érték valamilyen mértékig eltér a valós értéktől. Folytonos attribútumok esetén a mért és a valós érték numerikus különbségét nevezzük hibának. Az adatgyűjtési hiba kifejezés olyan hibákra utal, mint például adatobjektumok vagy attribútumértékek kihagyása, vagy egy adatobjektum helytelen felvétele. Például egy adott fajhoz tartozó állatokkal foglalkozó tanulmányban szerepelhetnek állatok egy, a vizsgált fajhoz hasonló megjelenésű rokon fajból. A mérési és adatgyűjtési hibák egyaránt lehetnek szisztematikusak vagy véletlenszerűek.

Mi itt csak a hibák általános típusaival foglalkozunk. Egyes területeken bizonyos típusú adathibák mindennaposnak számítanak, ezért gyakran már nagyon fejlett módszerek léteznek ezen hibák felismerésére és/vagy javítására. Manuális adatbevitelkor például általánosak a gépelési hibák, ezért sok adatbeviteli program rendelkezik módszerekkel ezek felismerésére, és emberi beavatkozással javításukra is.

Zaj és technikai hibák

A zaj a mérési hibák véletlen komponense. Magában foglalhatja egy érték torzulását vagy hibás objektumok felvételét. A 2.5. ábrán egy idősor látható azelőtt és azután, hogy véletlen zajjal zavartuk össze. Ha egy kicsivel több zajt adnánk hozzá az idősorhoz, akkor elvesztené az alakját. A 2.6. ábra adatpontok egy halmazát mutatja néhány (``+''-szal jelölt) zajpont hozzáadása előtt és után. Figyeljük meg, hogy néhány zajpont elvegyül a nem zaj pontok között.

2.5. ábra - Zaj idősoros környezetben

Zaj idősoros környezetben

2.6. ábra - Zaj térbeli környezetben

Zaj térbeli környezetben

A zaj kifejezést gyakran használják olyan adatokkal kapcsolatban, amelyeknek tér vagy idő komponense van. Ilyen esetekben gyakran alkalmazhatóak jel- vagy képfeldolgozási módszerek, melyekkel csökkenthetjük a zajt, és így feltárhatunk olyan mintázatokat (jeleket), amelyek ``elvesztek a zajban''. Ennek ellenére a zaj kiküszöbölése általában nehéz, és sok adatbányászati munka koncentrál olyan robusztus algoritmusok kidolgozására, amelyek zaj mellett is elfogadható eredményeket produkálnak.

Determinisztikusabb jelenségek is okozhatnak adathibákat, mint például egy csík egy fotósorozat minden fotóján ugyanazon a helyen. Az adatok ilyen determinisztikus torzulását gyakran technikai hibáknak nevezik.

Pontosság, torzítás, helyesség

A statisztikában és a kísérleti tudományokban a mérési folyamat és az eredményéül előálló adatok minőségét a pontossággal és a torzítással mérik. Az alábbiakban leírjuk a szokásos definíciókat, majd röviden magyarázzuk őket. A következő definíciókhoz feltételezzük, hogy ugyanazt az alapmennyiséget többször ismételten megmérjük, és az így nyert értékek halmazából középértéket (átlagot) számítva állítjuk elő a valós érték becsléséül szolgáló értéket.

2.3. Definíció (Pontosság). Az (ugyanazon a mennyiségen végzett) ismételt mérések közelsége egymáshoz.

2.4. Definíció (Torzítás). A mérések szisztematikus ingadozása a mért mennyiségtől.

A pontosságot gyakran az értékhalmaz szórásával mérik, míg a torzítást úgy állapítják meg, hogy veszik az értékek halmazának átlaga és a mért mennyiség ismert értéke közötti különbséget. A torzítás csak olyan objektumokra határozható meg, amelyek mért értéke az adott szituációtól független forrásból is ismert. Tegyük fel, hogy van egy standard 1g súlyú laboratóriumi súlyunk, és az új laboratóriumi mérlegünk pontosságát és torzítását akarjuk megállapítani. Öt alkalommal mérjük meg a tömeget, és a következő öt értéket kapjuk: {1,015;0,990;1,013;1,001;0,986} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaaigdacaGGSaGaaGimaiaaigdacaaI1aGaai4oaiaaicdacaGGSaGaaGyoaiaaiMdacaaIWaGaai4oaiaaigdacaGGSaGaaGimaiaaigdacaaIZaGaai4oaiaaigdacaGGSaGaaGimaiaaicdacaaIXaGaai4oaiaaicdacaGGSaGaaGyoaiaaiIdacaaI2aGaaiyFaaaa@4D35@ . Ezen értékek átlaga 1,001, és így a torzítás 0,001. A pontosság, melyet a szórásból kaptunk meg, 0,013.

Általában az általánosabb helyesség kifejezést használják az adatokban lévő mérési hibák mértékére.

2.5. Definíció (Helyesség). A mérések értékének közelsége a mért mennyiség valódi értékéhez.

A helyesség a pontosság és a torzítás függvénye, de mivel ez egy általános fogalom, nincs közelebbről meghatározott képlete ezen két mennyiségben kifejezve.

A helyesség egy fontos szempontja a szignifikáns számjegyek használata. A cél az, hogy csak annyi számjegyet használjunk egy mérés vagy számítás eredményének ábrázolására, amennyit az adatok pontossága indokol. Ha egy tárgy hosszát például egy olyan méterrúddal mérjük meg, amelyen a legkisebb beosztások milliméteresek, akkor csak a legközelebbi milliméterig kell feljegyeznünk a hosszadatokat. Egy ilyen mérés pontossága ± MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyySaelaaa@37F8@ 0,5 mm lenne. Itt nem tekintjük át a szignifikáns számjegyek használatának részleteit, mivel az olvasók többsége már korábbi kurzusokon találkozhatott velük, és mivel figyelemre méltó mélységben foglalkoznak velük tudományos, műszaki és statisztikai tankönyvek.

Az emberek gyakran átsiklanak az olyan kérdések felett, mint a szignifikáns számjegyek, a pontosság, a torzítás vagy a helyesség, pedig ugyanúgy fontosak az adatbányászat számára, mint a statisztika vagy más tudományok számára. Sok esetben az adatállományokkal együtt nem kapunk információt az adatok pontosságáról, továbbá egyes elemzéshez használt programok is mindenféle ilyen információ nélkül adják meg az eredményeket. Mindazonáltal, az adatok és az eredmények pontosságának valamilyen szintű megértése nélkül az elemző azt kockáztatja, hogy komoly adatelemzési tévedéseket követ el.

Kiugró értékek

A kiugró értékek egyrészt (1) olyan adatobjektumok, amelyek jellemzői bizonyos értelemben különböznek az adatállomány legtöbb adatobjektumáétól, (2) olyan attribútumértékek, amelyek szokatlanok ezen attribútum tipikus értékeit tekintve. Másképpen szólva, beszélhetünk rendellenes objektumokról és értékekről. A kiugró értékek definiálásában komoly eltérések lehetnek, a statisztikus és adatbányász csoportok már számos különböző definíciót javasoltak. Emellett fontos, hogy különbséget tegyünk a zaj és a kiugró értékek fogalma között. A kiugró értékek szabályos adatobjektumok vagy értékek is lehetnek, így a zajjal ellentétben a kiugró értékek egyes esetekben fontosak lehetnek. Például csalás és hálózati behatolás észlelésénél a cél a szokatlan objektumok vagy események megkeresése nagy mennyiségű normális elem között. A rendellenességek észlelésével 10. fejezet foglalkozik részletesebben.

Hiányzó értékek

Nem ritka, hogy hiányzik egy objektum egy vagy több attribútumának értéke. Egyes esetekben az információ nem került begyűjtésre, például egyesek megtagadják koruk vagy súlyuk megadását. Más esetekben bizonyos attribútumok nem alkalmazhatóak minden objektumra, például űrlapoknak gyakran vannak feltételes részei, melyeket csak akkor kell kitölteni, ha az illető az előző kérdésre meghatározott választ adott, de az egyszerűség kedvéért minden mező el van tárolva. Ettől függetlenül az adatok elemzése során a hiányzó értékeket figyelembe kell venni.

A hiányzó adatok kezelésére számos stratégia (és ezen stratégiáknak számos variációja) létezik, melyek mindegyikét bizonyos körülmények között lehet alkalmazni. A következőkben ezeket a stratégiákat soroljuk fel, kitérve előnyeikre és hátrányaikra.

Adatobjektumok vagy attribútumok törlése Egy egyszerű és hatékony stratégia a hiányzó értékekkel rendelkező objektumok törlése. Azonban még egy olyan adatobjektum is hordoz némi információt, amely csak részben van megadva, és ha sok objektumnak vannak hiányzó értékei, akkor a megbízható elemzés nehézzé vagy akár lehetetlenné is válhat. Ettől függetlenül, ha egy adatállományban csak néhány objektum rendelkezik hiányzó értékekkel, akkor elhagyásuk előnyös lehet. Ezzel rokon stratégia a hiányzó értékekkel rendelkező attribútumok elhagyása. Ezt azonban körültekintően kell elvégezni, mivel akár a törölt attribútumok is kritikusak lehetnek az elemzés szempontjából.

Hiányzó értékek becslése Bizonyos esetekben a hiányzó adatok megbízhatóan becsülhetőek. Vegyünk például egy viszonylag egyenletesen változó idősort, amelynek van néhány, egymástól nagy távolságra elszórt hiányzó értéke. Az ilyen esetekben a meglévő értékekből becsülhetőek (interpolálhatóak) a hiányzó értékek. Másik példaként tekintsünk egy nagyon sok hasonló adatponttal rendelkező adatállományt. Ilyen helyzetben gyakran a hiányzó értékkel rendelkező ponthoz legközelebb eső pontok attribútumértékei alapján becsüljük a hiányzó értéket. Folytonos attribútumokra a legközelebbi szomszédok attribútumértékeinek átlagát használjuk; kategorikus attribútumokra pedig a legtöbbször előforduló attribútumértéket. Konkrét példaként tekintsünk területi állomások által feljegyzett csapadékméréseket. Az állomással nem rendelkező területekre is becsülhető a csapadék mennyisége a közeli állomásokon megfigyelt értékek segítségével.

A hiányzó értékek figyelmen kívül hagyása az elemzés során Sok adatbányászati megközelítés módosítható úgy, hogy ne vegye figyelembe a hiányzó értékeket. Tegyük fel például, hogy objektumokat klaszterezünk, és az objektumok páronkénti hasonlóságát kell kiszámítanunk. Ha egy pár egyik vagy mindkét objektumának vannak hiányzó értékei, akkor a hasonlóságot kiszámíthatjuk csak a nem hiányzó attribútumértékek felhasználásával. Igaz, hogy ez csak közelítő hasonlóságot fog eredményezni, de a pontatlanság mértéke valószínűleg nem lesz jelentős, hacsak nem kicsi az összes attribútum száma vagy nem nagy a hiányzó értékek száma. Sok osztályozási séma is hasonlóképpen módosítható, hogy hiányzó értékekkel is használható legyen.

Inkonzisztens értékek

Az adatok tartalmazhatnak inkonzisztens értékeket. Tekintsünk egy lakcím mezőt, melyben egy irányítószám és egy város is fel van tüntetve, de a megadott területi irányítószám az adott városban nem létezik. Lehetséges, hogy az információk egyenkénti bevitele során két számjegy fel lett cserélve, vagy esetleg egy számjegyet félreértelmeztek, amikor az információ kézzel írt formáját beolvasták. Az inkonzisztens értékek megjelenésének okától függetlenül fontos az ilyen értékek felismerése, és ha lehetséges, a javítása.

Egyes inkonzisztencia típusokat könnyű felismerni. Például egy személy magassága nem lehet negatív. Más esetekben szükséges lehet egy külső információforrástól tanácsot kérni. Például, ha egy biztosító kártérítési igényeket dolgoz fel, a kártérítési igénylőlapokon szereplő neveket és címeket egyezteti az ügyféladatbázisában szereplőkkel.

Ha felfedeztünk egy inkonzisztenciát, egyes esetekben lehetséges az adatok javítása. Egy termékkód tartalmazhat ``ellenőrző'' számjegyeket, vagy ha lehetséges, a termékkódokat összevethetjük ismert termékkódok egy listájával, és az alapján korrigálhatjuk azokat a kódokat, melyek hibásak, de nagyon hasonlóak egy ismert kódhoz. Az inkonzisztenciák korrigálásához további vagy redundáns információra van szükség.

[Inkonzisztens tengerfelszíni hőmérséklet] Ez a példa az inkonzisztenciát olyan valós idősor adatokon szemlélteti, amelyek a víz felszíni hőmérsékletet (SST -- Sea Surface Temperature) mérik az óceán különböző pontjain. Az SST adatokat eredetileg hajókról vagy bójákról végzett óceáni mérésekkel gyűjtötték össze, de nem olyan rég műholdas adatgyűjtést alkalmaznak. Egy hosszútávú adatállomány kialakításához mindkét adatforrásra szükség van. Mivel azonban az adatok két különböző forrásból származnak, az adatok két része hajszálnyi eltérést mutat. Ezt az eltérést ábrázolja vizuálisan a 2.7. ábra, mely páronként mutatja az éves SST adatok korrelációját. Ha két év pozitívan korrelál, akkor a két évhez tartozó pont fehér, egyébként fekete. (A szezonális ingadozást eltávolították az adatokból, mert különben az összes év között erős korreláció lett volna.) Határozott változás észlelhető az adatok viselkedésében 1983-ban, ahol az adatokat összeillesztették. Mind a két csoportban, az 1958-tól 1982-ig, és az 1983-tól 1999-ig terjedőben is, jellemzően pozitív korreláció van az évek között, de negatív korreláció figyelhető meg a másik csoport éveivel. Ez nem jelenti azt, hogy ezeket az adatokat ne használjuk, mindössze azt, hogy az elemzőnek figyelembe kell vennie az ilyen eltérések lehetséges hatását az adatbányászati elemzésre.

2.7. ábra - Az évi SST adatok páronkénti korrelációja. A fehér területek pozitív korrelációt jeleznek, a fekete területek pedig negatív korrelációt.

Az évi SST adatok páronkénti korrelációja. A fehér területek pozitív korrelációt jeleznek, a fekete területek pedig negatív korrelációt.

Duplikált adatok

Az adatállomány tartalmazhat olyan objektumokat, melyek egymás másolatai, vagy majdnem másolatai. Sokan kapnak duplikált leveleket, mert némileg eltérő néven többször szerepelnek egy adatbázisban. Ahhoz, hogy felismerjük és törölhessük az ilyen másolatokat, két fő kérdéssel kell foglalkoznunk. Egyrészt, ha van két olyan objektum, melyek egy valós objektumot reprezentálnak, akkor az ezekhez tartozó attribútumok értékei különbözhetnek, és ezeket az inkonzisztenciákat fel kell oldani. Másrészt, oda kell figyelnünk, hogy véletlenül se vonjunk össze olyan adatobjektumokat, amelyek hasonlóak, de nem másolatok, mint például két különböző személyt egyforma névvel. A folyamatot, amely ezeket a problémákat kezeli, gyakran nevezik duplikátummentesítésnek (deduplication).

Egyes esetekben kettő vagy több objektum is megegyezik azon attribútumaik szempontjából, melyeket az adatbázisban mérünk, mégis különböző objektumokat reprezentálnak. Ekkor a másolatok helyesek, de ennek ellenére is gondot okozhatnak egyes algoritmusoknál, ha nem szentelünk különleges figyelmet az egyforma objektumok kezelésének az algoritmusok tervezése során. Erre található egy példa 13. feladatban exer:duplicate_trouble. oldalon.

Alkalmazásokhoz kapcsolódó kérdések

Az adatminőség kérdéseit tekinthetjük az alkalmazás szempontjából is. Ezt fejezi ki az az állítás, mely szerint ``az adat jó minőségű, ha megfelel a tervezett felhasználásának''. Az adatminőség ezen megközelítése igen hasznosnak bizonyult, főleg üzleti és ipari területeken. A statisztikában és a kísérleti tudományokban is találkozhatunk egy hasonló nézőponttal, amely arra fekteti a hangsúlyt, hogy gondosan megtervezett kísérletekkel gyűjtsék be az adott hipotézishez szükséges adatokat. Csakúgy, mint a mérési és adatgyűjtési szintű minőségi kérdések esetén, számos olyan probléma létezik, amely konkrét alkalmazásokhoz és területekhez köthető. Ismét csak néhány általános kérdéssel foglalkozunk.

Időszerűség Egyes adatok már összegyűjtésük pillanatában kezdenek elavulni. Főleg ha az adatok egy folyamatban lévő jelenségről vagy folyamatról nyújtanak pillanatképet, mint például az ügyfelek vásárlási magatartása vagy a web böngészési mintázatok. Ekkor egy ilyen pillanatkép csak korlátozott ideig tükrözi a valóságot. Ha az adat elavult, akkor a rá alapozott modellek és mintázatok is azok.

Relevancia A rendelkezésre álló adatoknak tartalmazniuk kell az alkalmazáshoz szükséges információkat. Tekintsünk egy olyan feladatot, amelyben egy modellt kell felépítenünk arra, hogy autóvezetők balesetokozási arányát jelezzük előre. Ha kimaradnak belőle a vezető korára és nemére vonatkozó információk, akkor a modell pontossága valószínűleg korlátozott lesz, hacsak nem érhetőek el ezek az információk indirekt módon más attribútumokon keresztül.

Annak biztosítása is nagy kihívást jelent, hogy egy adatállomány objektumai relevánsak legyenek. Általános probléma a mintavétel torzítása, mely akkor lép fel, ha a minta nem annak arányában tartalmazza a különböző objektumokat, amilyen gyakran ténylegesen előfordulnak a populációban. Ha egy kérdőívre vonatkozó adatok például csak azokat tüntetik fel, akik válaszoltak a kérdőívre. (A mintavétel egyéb szempontjait 2.3.2. szakaszban tárgyaljuk részletesebben.) Mivel az adatelemzés eredményei csak azokat az adatokat tükrözhetik, amelyek jelen vannak, a mintavételi torzítás általában hibás elemzéshez vezet.

Ismeretek az adatokról Ideális esetben az adatállományt dokumentáció kíséri, amely különböző szempontok szerint írja le az adatokat, ezen dokumentáció minősége segítheti, de hátráltathatja is a későbbi elemzést. Ha például a dokumentáció több attribútum között erős összefüggést azonosít, akkor ezek az attribútumok valószínűleg nagy arányban ismétlődő információkat tartalmaznak, és dönthetünk úgy, hogy csak egyet tartunk meg közülük. (Tekintsük például a forgalmi adót és a vételárat.) Ha azonban a dokumentáció szegényes, és például nem tesz említést arról, hogy egy bizonyos mezőben a hiányzó értékeket 9999 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOeI0IaaGyoaiaaiMdacaaI5aGaaGyoaaaa@3A03@ -cel jelölték, akkor az adatelemzésünk hibás lehet. Fontos jellemzők még az adatok pontossága, a jellemzők típusa (névleges, sorrendi, intervallum, hányados), a mérési skála (például hossz esetén méter vagy láb), és az adatok forrása.

Az adatok előfeldolgozása

Ebben a szakaszban azzal foglalkozunk, hogy mely előfeldolgozási lépéseket kell alkalmaznunk ahhoz, hogy az adatokat alkalmasabbá tegyük az adatbányászatra. Az adatok előfeldolgozása széles terület, mely számos különböző stratégiából és módszerből áll, melyek összetett kölcsönhatásokban állnak egymással. A következőkben bemutatunk néhányat a legfontosabb ötletekből és megközelítésekből, és megpróbáljuk feltárni a közöttük lévő kölcsönhatásokat. Konkrétan a következő témákkal fogunk foglalkozni:

  • Aggregálás

  • Mintavétel

  • Dimenziócsökkentés

  • Jellemzők részhalmazainak kiválasztása

  • Új jellemzők létrehozása

  • Diszkretizálás és binarizálás

  • Változó transzformáció

Ezek nagyjából két kategóriába sorolhatóak: az adatobjektumok és attribútumok kiválasztása az elemzéshez, illetve az attribútumok létrehozása és cseréje. A cél mindkét esetben az adatbányászati elemzés tökéletesítése idő, költség és minőség szempontjából. Ezt részletesen a következő szakaszokban tárgyaljuk.

Egy gyors megjegyzés a terminológiával kapcsolatban: a következőkben, az általános szóhasználat követése céljából, néhol olyan szinonimákat használunk az attribútumra, mint a jellemző vagy a változó.

Aggregálás

Néha ``a kevesebb több'', és ez érvényes az aggregálásra is, amely kettő vagy több objektum egyetlen objektummá egyesítését jelenti. Tekintsünk egy tranzakciókból (adatobjektumokból) álló adatállományt, amely különböző helyeken (Minneapolis, Chicago, Párizs, MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOjGWlaaa@3798@ ) lévő boltok napi eladásait tartalmazza különböző napokra egy éven keresztül, lásd 2.4. táblázatot. Egy módszer, mellyel ezen adatállomány tranzakcióit aggregálhatjuk, hogy minden bolt tranzakcióit egyetlen, az egész boltra kiterjedő tranzakcióval helyettesítjük. Ez leredukálja az adott boltban napi szinten előforduló több száz vagy több ezer tranzakciót egyetlen, napi szintű tranzakcióra, és az adatobjektumok száma lecsökken a boltok számára.

Nyilvánvaló kérdés: hogyan jön létre az aggregált tranzakció, azaz hogyan megy végbe a folyamat, amely minden egyes attribútum összes rekordhoz tartozó értékeit egyesíti egy konkrét helyszínre vonatkozóan, és így létrehozza azt a tranzakciót, amely az egy konkrét bolthoz vagy dátumhoz tartozó eladásokat reprezentálja. A kvantitatív attribútumokat, mint például az ár, jellemzően összegzéssel vagy átlagszámítással aggregáljuk. Egy kvalitatív attribútum, mint a tételek, elhagyható, vagy összegezhető egy halmazzá, amely az összes adott helyszínen eladott tételt tartalmazza.

A 2.4. táblázatban látható adatok tekinthetőek többdimenziós tömbnek is, melyben minden attribútum egy dimenzió. Ebből a szemszögből nézve az aggregálás egy olyan folyamat, mely során az olyan attribútumokat, mint például a tételek típusa, elhagyjuk, vagy egy konkrét attribútum értékeinek számát csökkentjük, például a lehetséges dátumértékeket 365 napról 12 hónapra. Ezt a fajta aggregálást gyakran használják a közvetlen analitikus feldolgozásban (OLAP -- On-Line Analytical Processing), mellyel behatóbban 3. fejezetben foglalkozunk.

2.4. táblázat - Ügyfelek vásárlásainak adatait tartalmazó adatállomány

Tranzakció azonosító

Tétel

Bolt helye

Dátum

Ár

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOjGWlaaa@3798@

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@

101123

Karóra

Chicago

09/06/04

$25,99

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOjGWlaaa@3798@

101123

Elem

Chicago

09/06/04

$5,99

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOjGWlaaa@3798@

101124

Cipő

Minneapolis

09/06/04

$75,00

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOjGWlaaa@3798@

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@

MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSO7I0eaaa@37F8@


Az aggregálásnak számos indítéka lehet. Először, az adatok redukciójának eredményeként létrejövő kisebb adatállományok kevesebb memóriát és feldolgozási időt igényelnek, és ennél fogva az aggregálás lehetővé teheti költségesebb adatbányászati algoritmusok használatát. Másodszor, az aggregálás megváltoztathatja a hatáskört és a skálát azzal, hogy az alacsony szintű nézet helyett az adatok egy magas szintű nézetét biztosítja. Az előző példában elvégzett boltok és hónapok szerinti aggregálás a napi és termékenkénti nézet helyett egy havi, és boltonkénti nézetet ad az adatokról. Végül, objektumok és attribútumok csoportjainak viselkedése gyakran stabilabb, mint az egyedi objektumoké és attribútumoké. Ez a kijelentés azt a statisztikai tényt tükrözi, hogy az olyan aggregált mennyiségeknek, mint az átlagok és az összegek, kisebb az ingadozása, mint az aggregált egyedi objektumoknak. Az összegek ingadozásának mértéke nagyobb, mint (átlagosan) az egyedi objektumoké, de az ingadozás százalékos aránya kisebb, míg átlagok esetén az ingadozás mértéke kevesebb, mint (átlagosan) az egyedi objektumoké. Az aggregálás egyik hátránya annak a veszélye, hogy fontos részleteket veszítünk el. A boltos példában a havi aggregálással elvész az az információ, hogy a hét melyik napján legnagyobb az eladás.

2.7. Példa (Ausztráliai csapadék)

A példa az 1982 és 1993 között mért ausztráliai csapadék adatokon alapszik. A 2.8. (a) ábrán egy hisztogram látható a havi átlagos csapadék szórására Ausztrália 3030 db 0,5 × 0,5 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGimaiaacYcacaaI1aWdamaaCaaaleqabaWdbiablIHiVbaakiabgEna0kaaicdacaGGSaGaaGyna8aadaahaaWcbeqaa8qacqWIyiYBaaaaaa@3F89@ -os rácscellájában, míg 2.8. (b) ábrán ugyanazokon a helyeken az évi átlagos csapadék szórásának hisztogramja látható. Az évi átlagos csapadék ingadozása kisebb, mint a havi átlagos csapadéké. Minden csapadék mérés (és a szórásaik is) cm-ben értendőek.

2.8. ábra - Hisztogramok az Ausztráliában mért havi és éves csapadékmennyiségek szórásaira az 1982-től 1993-ig terjedő időszakra

Hisztogramok az Ausztráliában mért havi és éves csapadékmennyiségek szórásaira az 1982-től 1993-ig terjedő időszakra

Mintavétel

A mintavétel egy általánosan használt megközelítés arra, hogy az elemzéshez kiválasszuk az adatok egy részhalmazát. A statisztikában már régóta használják az adatok előzetes vizsgálatára és a végső adatelemzésre egyaránt. A mintavétel az adatbányászatban is nagyon hasznos lehet, bár a mintavétel mögött meghúzódó indítékok gyakran különböznek a statisztikában és az adatbányászatban. A statisztikusok azért használnak mintavételt, mert a teljes, őket érdeklő adathalmaz előállítása túl költséges vagy időigényes lenne, míg az adatbányászok azért vesznek mintát, mert túl költséges vagy időigényes lenne az összes adat feldolgozása. Egyes esetekben egy mintavételezési algoritmus használata olyan szintre csökkentheti az adatok méretét, hogy lehetővé válik egy jobb, de költségesebb algoritmus használata.

A hatékony mintavétel alapelve a következő: egy mintát használva majdnem olyan jó eredményt kapunk, mintha a teljes adatállományt használnánk, amennyiben a minta reprezentatív. Másfelől, egy minta akkor reprezentatív, ha közelítőleg olyan (számunkra fontos) tulajdonsággal bír, mint az eredeti adatállomány. Ha az adatobjektumok középértéke (átlaga) ez a számunkra lényeges tulajdonság, akkor egy minta akkor reprezentatív, ha középértéke közel van az eredeti adatok középértékéhez. Mivel a mintavétel egy statisztikai folyamat, a konkrét minták reprezentativitása változó, és a legtöbb, amit tehetünk, hogy olyan mintavételi sémát választunk, mely nagy valószínűséggel garantálja azt, hogy reprezentatív mintát kapjunk vissza. Mint ahogy a következőkben kifejtjük, ebbe beletartozik a megfelelő mintanagyság és mintavételi módszer kiválasztása is.

Mintavételi megközelítések

Számos mintavételi módszer van, de itt csak a legalapvetőbbeket és azok változatait tárgyaljuk. A mintavétel legegyszerűbb módja az egyszerű véletlen mintavétel. Ezzel a mintavételi módszerrel minden egyes objektum kiválasztásának megegyezik az esélye. A véletlen mintavételnek (mint ahogy más mintavételi módszereknek is) két változata van: (1) visszatevés nélküli mintavétel -- kiválasztásakor minden elem eltávolításra kerül az összes, a populációt alkotó objektum halmazából, és (2) visszatevéses mintavétel -- amikor az objektumokat beválogatjuk a mintába, nem távolítjuk el őket a populációból. A visszatevéses mintavételnél ugyanazt az objektumot többször is ki lehet választani. A két módszerrel létrehozott minták nem sokban különböznek egymástól, ha a minták az adatállomány méretéhez képest kicsik, de a visszatevéses mintavétel könnyebben elemezhető, mivel bármely objektum kiválasztásának a valószínűsége állandó marad a mintavételi eljárás elvégzése közben.

Amikor a populáció különböző típusú objektumokból áll, melyek darabszáma nagyban különbözik, előfordulhat, hogy az egyszerű véletlen mintavétel nem képviseli megfelelően a kevésbé gyakori objektumokat. Ez problémákat okozhat, ha az elemzéshez minden objektumtípus megfelelő képviseletére van szükség. Ha például ritka osztályokhoz építünk osztályozási modellt, a ritka osztályok megfelelő képviselete a mintában kritikus kérdés. Ezért egy olyan mintavételi sémára van szükség, amely össze tudja egyeztetni a számunkra fontos objektumok különböző előfordulási gyakoriságait. A rétegzett mintavétel , mely objektumok előre meghatározott csoportjaiból indul ki, egy ilyen megközelítést nyújt. Legegyszerűbb változatában minden csoportból egyenlő számú objektumot veszünk, noha a csoportok különböző méretűek. Egy másik verzióban az egyes csoportokból kiválasztott objektumok száma arányos az adott csoport méretével.

2.8. Példa (Mintavétel és információveszteség)

Miután kiválasztottuk a mintavételi módszert, még el kell döntenünk, hogy mekkora legyen a minta mérete. A nagyobb mintanagyság növeli annak valószínűségét, hogy a minta reprezentatív lesz, ugyanakkor megszünteti a mintavétellel elért nyereség nagy részét is. Viszont kis mintanagyság mellett mintázatokat hagyhatunk ki vagy hibás mintázatokat észlelhetünk. A 2.9. (a) ábrán egy 8000 kétdimenziós pontból álló adatállományt láthatunk, míg a 2.9. (b) és a 2.9. (c) ábrákon ebből az adatállományból származó 2000 illetve 500 elemű minták láthatóak. Míg az adatállomány majdnem teljes szerkezete jelen van a 2000 pontból álló mintában, addig az 500 pontos mintában a szerkezet nagy része hiányzik.

2.9. ábra - Példa a felépítés elvesztésére mintavétel hatására

Példa a felépítés elvesztésére mintavétel hatására

2.9. Példa (A megfelelő mintanagyság meghatározása)

Annak bemutatására, hogy a megfelelő mintanagyság meghatározása módszeres megközelítést igényel, tekintsük a következő feladatot.

Adott egy adathalmaz, amely néhány, majdnem teljesen egyenlő méretű csoportból áll. Találjunk minden csoporthoz legalább egy reprezentatív pontot. Tegyük fel, hogy minden csoport objektumai nagy mértékben hasonlóak egymáshoz, de nem túl hasonlóak más csoportok objektumaihoz. Tegyük fel továbbá, hogy viszonylag kisszámú csoport van, mondjuk 10. A 2.10. (a) ábrán klaszterek egy idealizált csoportja látható, amelyből ezeket a pontokat kiválaszthatjuk.

Ez a probléma mintavétellel hatékonyan megoldható. Az egyik lehetséges megközelítés, hogy egy kisméretű mintát veszünk az adatpontokból, kiszámítjuk a pontok páronkénti hasonlóságát, majd csoportokat alkotunk a nagyon hasonló pontokból. Ezután a kívánt reprezentatív ponthalmaz úgy áll elő, hogy ezekből a csoportokból veszünk egy-egy pontot. Ezen megközelítés kivitelezéséhez azonban meg kell határoznunk egy olyan mintanagyságot, amely nagy valószínűséggel garantálja a kívánt eredményt; azaz azt, hogy minden klaszterből legalább egy pont kiválasztásra kerüljön. A 2.10. (b) ábrán annak a valószínűsége látható, hogy mind a 10 csoportból kapunk egy objektumot, 10-től 60-ig terjedő mintanagyság mellett. Érdekes, hogy 20-as mintanagyság mellett viszonylag csekély (20%) annak az esélye, hogy olyan mintát kapunk, amelyben mind a 10 csoport szerepel. Még 30-as mintanagyság mellett is közepes esélye (majdnem 40%) van annak, hogy olyan mintát kapunk, amelyben nem szerepelnek objektumok mind a 10 klaszterből. Ezt a kérdést tovább vizsgáljuk a klaszterezéssel összefüggésben az 578. oldalon található 4. feladatban.

2.10. ábra - Reprezentatív pontok keresése 10 csoportból

Reprezentatív pontok keresése 10 csoportból

Progresszív mintavétel

A megfelelő mintanagyság meghatározása nehéz is lehet, ezért néha adaptív vagy progresszív mintavételi sémákat alkalmazunk. Ezeknél a megközelítéseknél egy kis mintából indulunk ki, és addig növeljük a mintanagyságot, amíg elegendő méretű mintához nem jutunk. Bár ez a módszer nem igényli azt, hogy a megfelelő mintanagyságot előre meghatározzuk, egy módszer szükséges a minta kiértékelésére, amellyel eldöntjük, hogy már elég nagy-e.

Tegyük fel például, hogy egy prediktív modell tanításához progresszív mintavételt használunk. Bár a prediktív modellek pontossága a mintanagysággal nő, de egy ponton a pontosság növekedése megáll. Ezen a ponton akarjuk megállítani a mintanagyság növelését. Abból, hogy nyomon követjük a modell pontosságának változását, miközben fokozatosan egyre nagyobb mintákat veszünk, és abból, hogy a jelenlegiével közel egyező méretű más mintákat veszünk, becslést kaphatunk arra, hogy milyen közel vagyunk ehhez a ponthoz, és így megállíthatjuk a mintavételt.

Dimenziócsökkentés

Egy adatállománynak számos jellemzője lehet. Tekintsük dokumentumok egy halmazát, amelyben minden dokumentumot egy olyan vektor reprezentál, melynek elemei az egyes szavak előfordulási gyakoriságai az adott dokumentumban. Az ilyen esetekben általában több ezer vagy több tízezer attribútum (elem) van, a szótár minden szavához egy. Másik példaként tekintsük idősorok egy halmazát, amely különböző részvények egy 30 éves időintervallum folyamán feljegyzett napi záróértékeiből áll. Az attribútumokból, amelyek itt a konkrét napokhoz tartozó árak, ebben az esetben is több ezer van.

A dimenziócsökkentésnek különféle előnyei vannak. Az egyik legfontosabb haszna, hogy számos adatbányászati algoritmus jobban működik, ha a dimenziószám -- az adatok attribútumszáma -- kisebb. Ennek oka részben az, hogy a dimenzió csökkentésével kiküszöbölhetőek a lényegtelen jellemzők és csökkenthető a zaj, részben pedig a dimenzió probléma, melyet lentebb magyarázunk el. Egy másik előny, hogy a dimenzió csökkentése egy érthetőbb modellhez vezethet, mert a modellben kevesebb attribútum fog szerepelni. Emellett a dimenziócsökkentés adatok könnyebb ábrázolását teszi lehetővé. Még ha a dimenziócsökkentés nem is redukálja az adatokat két- vagy háromdimenzióssá, az adatokat gyakran ábrázoljuk attribútumpárjaik vagy attribútum-hármasaik alapján, és az ilyen kombinációk száma így jelentősen csökken. Végül, a dimenzió csökkenésével az adatbányászati algoritmus számára szükséges idő és memóriamennyiség is csökken.

A dimenziócsökkentés kifejezést gyakran az olyan módszerek számára tartják fenn, amelyek úgy csökkentik az adatállomány dimenzióját, hogy a régi attribútumok kombinációiként új attribútumokat hoznak létre. A dimenziócsökkentésének azt a fajtáját, melyben a régi attribútumok részhalmazaiból létrehozott új attribútumokat választunk ki, jellemzők részhalmazai kiválasztásának, vagy jellemzők kiválasztásának nevezzük. Ezzel a 2.3.4. szakaszban fogunk foglalkozni.

Ezen szakasz fennmaradó részében két fontos témával foglalkozunk röviden: a dimenzió problémával, és az olyan dimenziócsökkentő eljárásokkal, amelyek lineáris algebrai megközelítéseken alapulnak, mint például a főkomponens analízis (PCA -- Principal Component Analysis). További részletek a dimenziócsökkentésről a B. függelékben találhatóak.

A dimenzió probléma

A dimenzió probléma azt a jelenséget jelenti, hogy számos adatelemzés lényegesen nehezebbé válik az adatok dimenziójának növekedésével. Speciálisan, a dimenzió növekedésével az adatok egyre ritkábban helyezkednek el az általuk kitöltött térben. Osztályozásnál ez azt is jelentheti, hogy nem lesz elég adatobjektum ahhoz, hogy létrehozzunk egy olyan modellt, amely minden lehetséges objektumot megbízhatóan besorol egy osztályba. Klaszterezésnél a sűrűség és a pontok közötti távolság definíciói, amelyek ennél a módszernél kritikus fontosságúak, veszítenek jelentőségükből. (Ezt részletesebben tárgyaljuk a 9.1.2., 9.4.5. és 9.4.7. szakaszokban.) Ennek eredményeként sok klaszterező és osztályozó algoritmus (és más adatelemző algoritmusok) számára problémát jelentenek a magas dimenziójú adatok -- csökken az osztályozás pontossága és gyenge minőségű klaszterek jönnek létre.

A dimenziócsökkentés lineáris algebrai módszerei

A legáltalánosabb dimenziócsökkentési megközelítések között is van néhány, főként folytonos adatok esetén, mely a lineáris algebra módszereit alkalmazva képezi le a magas dimenziójú térben lévő adatokat egy alacsonyabb dimenziójú térbe. A főkomponens analízis (PCA -- Principal Component Analysis) egy ilyen, lineáris algebrai módszer, amely olyan új attribútumokat (főkomponenseket) tár fel, amelyek (1) az eredeti attribútumok lineáris kombinációi, (2) ortogonálisak (merőlegesek) egymásra, és (3) az adatokban fellelhető ingadozást maximálisan kifejezik. Az első két főkomponens például az adatok ingadozását maximálisan kifejezi két olyan ortogonális attribútummal, melyek az eredeti attribútumok lineáris kombinációi. A szinguláris felbontás (SVD -- Singular Value Decomposition) egy olyan lineáris algebrai módszer, amely a PCA-hoz kapcsolódik és szintén gyakran használják dimenziócsökkentésre. Ezeket részletesebben a A. és B. függelékekben tárgyaljuk.

Jellemzők részhalmazainak kiválasztása

A dimenzió csökkentésének másik módja, hogy ha a jellemzőknek csak egy részhalmazát használjuk. Bár úgy tűnhet, hogy ez a megközelítés információveszteséghez vezet, de ez nincs így, ha felesleges vagy lényegtelen információk is jelen vannak. A felesleges jellemzők egy vagy több más attribútumban fellelhető információ nagy részének vagy egészének másolatai. Például egy termék ára és a forgalmi adó mértéke nagyjából ugyanazt az információt tartalmazzák. A lényegtelen jellemzők szinte semmi olyan információt nem tartalmaznak, amely hasznos lenne az elvégzendő adatbányászati feladathoz. A hallgatók azonosító számai például irrelevánsak a tanulmányi átlaguk előrejelzése szempontjából. A felesleges és lényegtelen jellemzők csökkenthetik az osztályozás pontosságát és a feltárt klaszterek minőségét.

Míg egyes lényegtelen és felesleges attribútumok józan ésszel vagy szakterületi tudással azonnal eltávolíthatók, addig a jellemzők legjobb részhalmazának kiválasztása gyakran módszeres megközelítést igényel. A jellemzők kiválasztásának ideális megközelítése az, hogy kipróbáljuk a jellemzők összes lehetséges részhalmazát a használt adatbányászati algoritmus bemeneteként, és aztán azt a részhalmazt választjuk, amely a legjobb eredményeket produkálta. Ezen módszer előnye, hogy megmutatja a történetesen használni kívánt adatbányászati algoritmus objektivitását és torzítását. Sajnos mivel egy n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaaaa@36FD@ elemszámú attribútum részhalmazainak száma 2 n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGOma8aadaahaaWcbeqaa8qacaWGUbaaaaaa@3805@ , ez a megközelítés a legtöbb esetben kivitelezhetetlen, így alternatív stratégiákra van szükség. A jellemzők kiválasztásának három alapvető megközelítése van: beágyazott, szűrő és borító.

Beágyazott megközelítések A jellemzők kiválasztása természetétől fogva az adatbányászati algoritmus részeként jelenik meg, azaz az adatbányászati algoritmus futása során az algoritmus maga dönti el, hogy mely attribútumokat használja, és melyeket hagyja figyelmen kívül. 4. fejezetben tárgyalt, döntési fa osztályozókat építő algoritmusok gyakran működnek ilyen módon.

Szűrő (filter) megközelítések A jellemzők kiválasztása még az adatbányászati algoritmus futása előtt megtörténik egy olyan módszer alkalmazásával, amely független az adatbányászati feladattól. Kiválaszthatjuk például az olyan attribútumokat, melyek párjai között minimális a korreláció.

Borító (wrapper) megközelítések Ezek a megközelítések a végrehajtandó adatbányászati algoritmust fekete dobozként használják az attribútumok legjobb részhalmazának megtalálásához. Ezt a fentebb leírt ideális algoritmushoz hasonlóan teszik, de jellemzően anélkül, hogy végigmennének az összes lehetséges részhalmazon.

Mivel a beágyazott megközelítések algoritmus specifikusak, itt részletesebben csak a szűrő és borító megközelítésekkel foglalkozunk.

A jellemzők részhalmazai kiválasztásának architektúrája

Lehetséges olyan közös architektúra létrehozása, mely a szűrő és a borító megközelítéseket is magában foglalja. A jellemzők kiválasztásának folyamatát négy részből állónak tekintjük: a részhalmazok kiértékelését szolgáló mérték, a jellemzők új részhalmazainak generálását irányító keresési stratégia, egy megállási feltétel és egy jóváhagyó eljárás alkotja. A szűrő és borító módszerek csak a jellemzők részhalmazának kiértékelésében különböznek egymástól. A borító módszereknél a részhalmazok kiértékelése a használt adatbányászati algoritmus segítségével történik, míg a szűrő megközelítéseknél a kiértékelés elkülönül a használt adatbányászati algoritmustól. A következőkben ezen megközelítés néhány részletével foglalkozunk, melyeket a 2.11. ábrán foglaltuk össze.

2.11. ábra - Egy jellemző részhalmaz kiválasztási folyamat folyamatábrája

Egy jellemző részhalmaz kiválasztási folyamat folyamatábrája

Elméletben a jellemzők részhalmazainak kiválasztása egy keresés a jellemzők összes lehetséges részhalmaza felett. Számos különböző keresési stratégiát lehet használni, de a keresési stratégiának számítási szempontból alacsony költségűnek kell lennie, és a jellemzők optimális vagy közel optimális részhalmazait kell eredményül adnia. Általában nem lehet egyszerre mindkét követelménynek eleget tenni, és így kompromisszumokat kell kötni.

A keresés szerves részét képezi egy olyan kiértékelési lépés, ami meghatározza, hogy a jellemzők aktuális részhalmaza milyen a korábban már áttekintettekhez képest. Ehhez szükség van egy olyan kiértékelési mértékre, ami megkísérli meghatározni az attribútumok részhalmazainak jóságát egy adott adatbányászati feladatra vonatkozóan, mint például az osztályozás vagy a klaszterezés. A szűrő megközelítésnél ezek a mértékek azt próbálják megjósolni, hogy a használt adatbányászati algoritmus milyen jól fog teljesíteni egy adott attribútumhalmazon. A borító megközelítésnél, ahol a kiértékelés konkrétan a használni kívánt adatbányászati alkalmazás lefuttatását jelenti, a részhalmazokat kiértékelő függvény csupán az a kritérium, amit normális esetben az adatbányászat eredményének mérésére használnak.

Mivel a lehetséges részhalmazok száma hatalmas lehet, és lehetetlen az összeset megvizsgálni, szükség van valamilyen megállási feltételre. Az erre vonatkozó stratégia általában a következő feltételek egyikén vagy többön alapszik: az iterációk száma, a részhalmazok kiértékelésére használt mérőszám optimális-e vagy meghalad-e egy meghatározott küszöböt, elértünk-e már egy meghatározott méretű részhalmazt, egyidejűleg elértük-e a méretre és a kiértékelésre vonatkozó feltételeket, és a keresési stratégiában hozzáférhető további lehetőségekkel még érhetünk-e el javulást.

Végül, amikor a jellemzők egy részhalmaza már kiválasztásra került, ellenőriznünk kell a kiválasztott részhalmazra a használni kívánt adatbányászati algoritmus által kapott eredményeket. A közvetlen kiértékelési megközelítés az, hogy először lefuttatjuk az algoritmust a jellemzők teljes halmazán, majd összehasonlítjuk a teljes halmazra kapott eredményt a részhalmaz használatával kapott eredménnyel. Remélhetőleg a jellemzők részhalmazát használva jobb, vagy majdnem olyan jó eredményeket fogunk kapni, mintha az összes jellemzőt használnánk. Egy másik ellenőrző módszer, hogy különböző jellemző kiválasztási algoritmusokkal előállítjuk a jellemzők különböző részhalmazait, az adatbányászati algoritmust lefuttatjuk az egyes részhalmazokon és összehasonlítjuk az eredményeket.

Jellemzők súlyozása

A jellemzők súlyozása azok megtartásával vagy törlésével szemben nyújt alternatívát. A fontosabb jellemzőkhöz nagyobb súlyt társítunk, míg a kevésbé fontos jellemzők alacsonyabb súlyokat kapnak. Ezeket a súlyokat egyes esetekben az egyes jellemzők relatív fontosságára vonatkozó szakterületi tudás alapján határozzák meg. Emellett a súlyok automatikusan is meghatározhatóak, például egyes osztályozó sémák, mint például a tartóvektor-gépek (lásd 5. fejezetet), olyan osztályozási modelleket állítanak elő, amelyekben minden jellemző egy súlyt kap. A nagyobb súllyal rendelkező jellemzők fontosabb szerepet játszanak a modellben. Az objektumok normalizálása, amely a koszinusz hasonlóság (lásd a 2.4.5. szakaszt) kiszámításakor lép fel, is tekinthető a jellemzők egyfajta súlyozásának.

Jellemzők létrehozása

Gyakran lehetséges egy olyan új attribútumhalmaz létrehozása az eredeti attribútumokból, amely sokkal hatékonyabban adja vissza az adatállományban lévő fontos információkat. Továbbá az új attribútumok száma kisebb lehet az eredeti attribútumokénál, ezzel lehetővé téve számunkra a dimenziócsökkentés összes fentebb említett előnyének kihasználását. A következőkben az új attribútumok létrehozásának három, egymással összefüggő módszertanát írjuk le: jellemzők kinyerése, az adatok leképezése egy új térre és jellemzők szerkesztése.

Jellemzők kinyerése

Jellemzők kinyerése alatt az eredeti, nyers adatokból jellemzők új halmazának létrehozását értjük. Tekintsünk egy csoport fényképet, amelyeket aszerint kell osztályozni, hogy van-e rajtuk emberi arc. A nyers adatokat pixelek egy halmaza jelenti, és így sok osztályozó algoritmus nem alkalmazható rájuk. Ha azonban az adatokat feldolgozzuk, hogy olyan magasabb szintű jellemzőket tegyünk elérhetővé, mint bizonyos típusú élek és területek jelenléte vagy hiánya, amelyek erősen korrelálnak az emberi arcok jelenlétével, akkor az osztályozási módszerek egy sokkal szélesebb köre válik alkalmazhatóvá erre a problémára.

Sajnos abban az értelemben, ahogy a leggyakrabban használják, a jellemzők kinyerése erősen szakterületfüggő. Egy konkrét területre, mint például a képfeldolgozás, számos jellemzőt és azok kinyerési módszereit dolgozták ki az idők során, és ezek a módszerek csak korlátozottan alkalmazhatóak más területeken. Következésképpen, amikor adatbányászatot alkalmaznak egy viszonylag új területen, kulcsfontosságú feladat az új jellemzők és azok kinyerési módszereinek a kifejlesztése.

Az adatok leképezése egy új térre

Fontos és érdekes jellemzők kerülhetnek napvilágra, ha az adatokat egy teljesen más szemszögből szemléljük. Vegyünk például idősor adatokat, amelyek gyakran tartalmaznak periodikus mintázatokat. Ha csak egyetlen periodikus mintázat van és nem túl nagy a zaj, akkor ezt a mintázatot könnyű kimutatni. Más oldalról, ha több periodikus mintázat is jelen van és jelentős a zaj, akkor ezeket a mintázatokat nehéz kimutatni. Ugyanakkor az ilyen minták gyakran felismerhetőek, ha Fourier transzformációt alkalmazunk az idősorra, ezáltal olyan reprezentációra váltva, amelyben a frekvenciainformációk explicit módon jelennek meg. A következő példához nem lényeges, hogy ismerjük a Fourier transzformáció részleteit. Elég annyit tudnunk, hogy a Fourier transzformáció minden idősorra egy olyan új adatobjektumot hoz létre, amely frekvenciákhoz kapcsolódó attribútumokkal rendelkezik.

2.10. Példa (Fourier elemzés)

A 2.12. (b) ábrán látható idősor három másik idősor összege, amelyek közül kettőt a 2.12. (a) ábra mutat, és a frekvenciájuk másodpercenként 7 illetve 17 ciklus. A harmadik idősor véletlen zaj. A 2.12. (c) ábra azt a spektrális eloszlásfüggvényt mutatja, amelyet azután számoltunk ki, hogy Fourier transzformációt alkalmaztunk az eredeti idősorra. (Egyszerűen fogalmazva, a spektrális eloszlásfüggvény arányos a frekvenciára vonatkozó attribútumok négyzetével.) A zaj ellenére két csúcspont figyelhető meg, melyek megfelelnek a két eredeti, zajmentes idősor periódusainak. A lényeg ismét az, hogy jobb jellemzőkkel az adatok fontos szempontjai tárhatóak fel.

2.12. ábra - A Fourier transzformáció idősor adatokban történő alkalmazása frekvenciák azonosítására

A Fourier transzformáció idősor adatokban történő alkalmazása frekvenciák azonosítására

Számos más transzformációfajta is lehetséges. A Fourier transzformáció mellett a wavelet transzformáció is nagyon hasznosnak bizonyult idősorokon és más adattípusokon való alkalmazás esetén.

Jellemzők konstrukciója

Néha előfordul, hogy bár az eredeti adatállományban lévő jellemzőkben megvannak a szükséges információk, de azok nem az adatbányászati algoritmus számára megfelelő alakban vannak. Ebben az esetben az eredeti jellemzőkből létrehozott egy vagy több új jellemző használhatóbb lehet, mint az eredeti attribútumok.

2.11 Példa (Sűrűség)

Ennek szemléltetésére tekintsünk egy adatállományt, amely régészeti leletekről tárol információkat, egyebek mellett mindegyik lelet térfogatát és tömegét. Az egyszerűség kedvéért tegyük fel, hogy ezeket a leleteket kevés számú anyagból (fából, agyagból, bronzból és aranyból) készítették, és aszerint akarjuk őket osztályozni, hogy milyen anyagból készültek. Ez esetben egy, a térfogatból és a tömegből létrehozott sűrűség attribútum, azaz a sűrűség=tömeg/térfogat MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4CaiaabgxacaWGYbGaaeyCbiaadohacaqGPdGaam4zaiabg2da9iaadshacaqG2dGaamyBaiaadwgacaWGNbGaai4laiaadshacaqGPdGaamOCaiaadAgacaWGVbGaam4zaiaadggacaWG0baaaa@4C2C@ , közvetlenül egy pontos osztályozáshoz vezetne. Bár vannak törekvések annak irányába, hogy a meglévő attribútumok egyszerű matematikai kombinációinak feltárásával automatikusan hozzanak létre jellemzőket, a leggyakoribb megközelítés az, hogy szakterületi tudás felhasználásával szerkesztenek új jellemzőket.

Diszkretizálás és binarizálás

Egyes adatbányászati algoritmusok, főleg bizonyos osztályozó algoritmusok, alkalmazásához szükséges, hogy az adatok kategorikus attribútumok formájában legyenek. Az asszociációs szabályokat feltáró algoritmusok csak akkor alkalmazhatóak, ha az adatok bináris attribútumok formájában érhetőek el. Így gyakran szükség van a folytonos attribútumok kategorikus attribútumokká alakítására (diszkretizálás), valamint a folytonos és a diszkrét attribútumok átalakítása egyaránt szükséges lehet egy vagy több bináris attribútummá (binarizálás). Emellett, ha egy kategorikus attribútum sok értékkel (kategóriával) rendelkezik, vagy egyes értékei ritkán fordulnak elő, akkor egyes adatbányászati feladatokhoz hasznos lehet, ha néhány érték egyesítésével csökkentjük a kategóriák számát.

Csakúgy mint a jellemzők szelekciójánál, a diszkretizálás és binarizálás legjobb megközelítése az, ami ``a legjobb eredményt biztosítja az adatok elemzésére használt adatbányászati algoritmus számára''. Egy ilyen feltétel közvetlen alkalmazása általában nem célravezető. Következésképpen a diszkretizálást és a binarizálást úgy végezzük el, hogy eleget tegyen egy olyan feltételnek, melyről azt feltételezzük, hogy kapcsolatban áll a tárgyalt adatbányászati feladat jó teljesítményével.

Binarizálás

Egy kategorikus attribútum binarizálásának egyszerű módszere a következő. Ha m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ kategorikus érték van, akkor minden egyes eredeti értéket egy, a [0;m1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaamyBaiabgkHiTiaaigdacaGGDbaaaa@3BDD@ intervallumba tartozó egész számhoz rendeljük hozzá. Sorrendi attribútumok esetén a feladat elvégzése során fenn kell tartani a sorrendiséget. (Megjegyezzük, hogy még ha az attribútumot eredetileg egész számokkal reprezentáltuk is, akkor is szükség van erre az eljárásra, ha az egész számok nem a [0;m1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaamyBaiabgkHiTiaaigdacaGGDbaaaa@3BDD@ intervallumból valók.) Ezután ezen m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ egész szám mindegyikét átkonvertáljuk egy bináris számmá. Mivel ezen egész számok előállításához n= log 2 (m) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaWGUbGaeyypa0ZaaCWaaeaaciGGSbGaai4BaiaacEgadaWgaaWcbaGaaGOmaaqabaGccaGGOaGaamyBaiaacMcaaiaaw6o+caGL5Jpaaaa@3ED5@ bináris számjegyre van szükség, ezért ezeket a bináris számokat n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaaaa@36FD@ darab bináris attribútummal reprezentáljuk. Ha például egy kategorikus változó a következő 5 értéket veheti fel: {borzalmas,gyenge,megfelelő,jó,kiváló} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaadkgacaWGVbGaamOCaiaadQhacaWGHbGaamiBaiaad2gacaWGHbGaam4CaiaacYcacaWGNbGaamyEaiaadwgacaWGUbGaam4zaiaadwgacaGGSaGaamyBaiaadwgacaWGNbGaamOzaiaadwgacaWGSbGaamyzaiaadYgacaqGrfGaaiilaiaadQgacaqGZdGaaiilaiaadUgacaWGPbGaamODaiaabgoacaWGSbGaae48aiaac2haaaa@5A26@ , akkor ehhez három bináris változóra, x 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaigdaa8aabeaaaaa@381C@ -re, x 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaikdaa8aabeaaaaa@381D@ -re és x 3 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaiodaa8aabeaaaaa@381E@ -ra lenne szükség. A konverziót 2.5. táblázatban láthatjuk.

2.5. táblázat - Egy kategorikus attribútum konverziója három bináris attribútumra

Kategorikus érték

Egész érték

x 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaigdaa8aabeaaaaa@381C@

x 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaikdaa8aabeaaaaa@381D@

x 3 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaiodaa8aabeaaaaa@381E@

borzalmas

0

0

0

0

gyenge

1

0

0

1

megfelelő

2

0

1

0

3

0

1

1

kiváló

4

1

0

0


2.6. táblázat - Egy kategorikus attribútum konverziója öt aszimmetrikus bináris attribútumra

Kategorikus érték

Egész érték

x 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaigdaa8aabeaaaaa@381C@

x 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaikdaa8aabeaaaaa@381D@

x 3 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaiodaa8aabeaaaaa@381E@

x 4 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaisdaa8aabeaaaaa@381F@

x 5 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaiwdaa8aabeaaaaa@3820@

borzalmas

0

1

0

0

0

0

gyenge

1

0

1

0

0

0

megfelelő

2

0

0

1

0

0

3

0

0

0

1

0

kiváló

4

0

0

0

0

1


Az ilyen átalakítások olyan komplikációkhoz vezethetnek, mint például kapcsolatok akaratlan létrehozása az átalakított attribútumok között. Például 2.5. táblázatban az x 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaikdaa8aabeaaaaa@381D@ és x 3 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaiodaa8aabeaaaaa@381E@ attribútumok korrelálnak, mivel a értéket leíró információ kódolása mindkét attribútum felhasználásával történik. Továbbá, az asszociációs elemzéshez aszimmetrikus bináris attribútumokra van szükség, amelyeknél csak az attribútum jelenléte (1 értéke) fontos. Ezért asszociációs feladatoknál minden kategorikus értékhez be kell vezetni egy bináris attribútumot, mint ahogy az a 2.6. táblázatban látható. Ha az így kapott attribútumok száma túl nagy, akkor a lentebb leírt módszerekkel csökkenthető a kategorikus értékek száma a binarizálás előtt.

Hasonlóképpen, asszociációs feladatoknál indokolt lehet egy bináris attribútum helyettesítése két aszimmetrikus bináris attribútummal. Tekintsünk egy olyan bináris attribútumot, amely egy személy nemét tartalmazza, nevezetesen, hogy férfi vagy nő. A hagyományos asszociációs szabály algoritmusokhoz ezt az információt két aszimmetrikus attribútummá kell alakítanunk, melyek egyike csak akkor 1, ha a személy férfi, a másik pedig csak akkor 1, ha a személy nő. (Az aszimmetrikus bináris attribútumokkal történő információreprezentáció hatékonysága meglehetősen alacsony, mivel az információ minden egyes bitjének tárolásához két bitre van szükség.)

Folytonos attribútumok diszkretizálása

A diszkretizálást tipikusan olyan attribútumokra alkalmazzuk, melyeket osztályozási vagy asszociációs elemzés során alkalmazunk. Általában az, hogy mi a legjobb diszkretizálás, legalább annyira függ az alkalmazott algoritmustól, mint a többi figyelembe vett attribútumtól. Azonban egy attribútum diszkretizálását jellemzően elkülönítve végzik.

Egy folytonos attribútum kategorikus attribútummá alakítása két részfeladatból áll: annak eldöntése, hogy hány kategóriánk legyen, és annak meghatározása, hogy hogyan képezzük le a folytonos attribútum értékeit ezekre a kategóriákra. Az első lépésben, a folytonos attribútum értékeinek rendezése után, azokat n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaaaa@36FD@ intervallumra osztjuk n1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaiabgkHiTiaaigdaaaa@38A5@ osztópont meghatározásával. A második, meglehetősen triviális lépésben az egyes intervallumokba eső összes értéket ugyanarra a kategorikus értékre képezünk le. Így a diszkretizálás feladata abban áll, hogy hány osztópontot válasszunk, és hova helyezzük el őket. Az eredményt reprezentálhatjuk {( x 0 , x 1 ],( x 1 , x 2 ],,( x n1 , x n )} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaacIcacaWG4bWdamaaBaaaleaapeGaaGimaaWdaeqaaOWdbiaacYcacaWG4bWdamaaBaaaleaapeGaaGymaaWdaeqaaOWdbiaac2facaGGSaGaaiikaiaadIhapaWaaSbaaSqaa8qacaaIXaaapaqabaGcpeGaaiilaiaadIhapaWaaSbaaSqaa8qacaaIYaaapaqabaGcpeGaaiyxaiaacYcacqGHMacVcaGGSaGaaiikaiaadIhapaWaaSbaaSqaa8qacaWGUbGaeyOeI0IaaGymaaWdaeqaaOWdbiaacYcacaWG4bWdamaaBaaaleaapeGaamOBaaWdaeqaaOWdbiaacMcacaGG9baaaa@514B@ intervallumok halmazaként, ahol x 0 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaicdaa8aabeaaaaa@381B@ és x n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaad6gaa8aabeaaaaa@3854@ lehetnek MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOeI0IaeqOhIukaaa@3866@ illetve + MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaey4kaSIaeqOhIukaaa@385B@ , de ezzel egyenértékű egyenlőtlenségek egy x 0 <x x 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaicdaa8aabeaak8qacqGH8aapcaWG4bGaeyizImQaamiEa8aadaWgaaWcbaWdbiaaigdaa8aabeaaaaa@3DFD@ , ... , x n1 <x< x n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaad6gacqGHsislcaaIXaaapaqabaGcpeGaeyipaWJaamiEaiabgYda8iaadIhapaWaaSbaaSqaa8qacaWGUbaapaqabaaaaa@3F65@ sorozata is.

Felügyelet nélküli diszkretizálás Az osztályozásnál használt diszkretizálási módszereket alapvetően aszerint különböztetjük meg, hogy használják-e az osztályinformációkat (felügyelt) vagy sem (nem felügyelt). Általában viszonylag egyszerű megközelítések jellemzőek abban az esetben, ha az osztályinformációkat nem használjuk. Az egyenlő hosszúság megközelítés például az attribútum terjedelmét a felhasználó által meghatározott számú, egyenlő hosszúságú intervallumra osztja. Egy ilyen megközelítésre rossz hatással lehetnek a kiugró értékek, ezért gyakran az egyenlő gyakoriság (egyenlő mélység) megközelítést preferálják inkább, ami megpróbál minden intervallumba ugyanannyi objektumot tenni. Egy másik példa felügyelet nélküli diszkretizálásra egy olyan klaszterező módszer, mint a K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép (lásd 8. fejezetet). Végül, néha az adatok vizuális vizsgálata is hatékony megközelítést adhat.

2.12. Példa (Diszkretizálási módszerek)

Ez a példa azt szemlélteti, hogy a fenti megközelítések hogyan működnek egy valódi adatállományon. A 2.13. (a) ábra négy különböző csoportba tartozó adatpontokat és két kiugró adatértéket ábrázol -- ez utóbbiak a nagy pontok a két szélen. Az előző bekezdésben szereplő módszereket alkalmaztuk az adatpontok x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ értékeinek négy kategorikus értékbe sorolásához. (Az adatállományban lévő pontoknak van egy véletlenszerű y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ komponense, hogy könnyen láthatóvá tegyük, hogy az egyes csoportokban mennyi pont van.) Az adatok vizuális vizsgálata elég jól használható, de nem automatikus, így a másik három megközelítésre koncentrálunk. Az egyenlő hosszúság, egyenlő gyakoriság és K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép módszerekkel előállított osztópontok a 2.13. (b), a 2.13. (c), illetve 2.13. (d) ábrán láthatóak. Az osztópontokat szaggatott vonalak jelölik. Ha azzal mérjük a diszkretizálási módszerek hatékonyságát, hogy milyen mértékben lettek különböző csoportok különböző objektumaihoz megegyező értékek hozzárendelve, akkor a K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép teljesít a legjobban, melyet az egyenlő gyakoriság és végül az egyenlő hosszúság követ.

2.13. ábra - Különböző diszkretizálási módszerek

Különböző diszkretizálási módszerek

Felügyelt diszkretizálás A fentebb leírt diszkretizálási módszerek rendszerint jobbak, mintha nem diszkretizálnánk, de ha a végcélt tartjuk szem előtt és kiegészítő információkat (osztálycímkéket) használunk, akkor gyakran jobb eredményt kapunk. Ez nem meglepő, mivel az osztálycímkék ismerete nélkül létrehozott intervallumok gyakran több osztálycímke keverékét tartalmazzák. Fogalmi szinten egyszerű megoldást jelent, ha az osztópontokat úgy helyezzük el, hogy maximalizáljuk az intervallumok tisztaságát. A gyakorlatban azonban egy ilyen megközelítésnél előfordulhat, hogy önkényes döntésekre lesz szükség az intervallumok tisztaságát és egy intervallum minimális méretét illetően. Az ilyen problémák elkerülése érdekében egyes statisztikai alapú megközelítések kezdetben minden attribútumértéket egy különálló intervallumnak tekintenek és egy statisztikai próba alapján hasonlónak ítélt, szomszédos intervallumok egyesítésével hoznak létre nagyobb intervallumokat. Az entrópia alapú megközelítések a legígéretesebb módszerek diszkretizálásra. Itt egy egyszerű entrópia alapú megközelítést mutatunk be.

Először az entrópiát szükséges definiálnunk. Legyen k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Aaaaa@36FA@ a különböző osztálycímkék száma, m i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBa8aadaWgaaWcbaWdbiaadMgaa8aabeaaaaa@3844@ az értékek száma egy felosztás i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik intervallumában, és m ij MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBa8aadaWgaaWcbaWdbiaadMgacaWGQbaapaqabaaaaa@3933@ a j MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOAaaaa@36F9@ -edik osztályba tartozó értékek száma az i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik intervallumban. Ekkor az i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik intervallum entrópiáját, e i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyza8aadaWgaaWcbaWdbiaadMgaa8aabeaaaaa@383C@ -t, a következő egyenlet adja:

e i = j=1 k p ij log 2 p ij , MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaWGLbWaaSbaaSqaaiaadMgaaeqaaOGaeyypa0JaeyOeI0YaaabCaeaacaWGWbWaaSbaaSqaaiaadMgacaWGQbaabeaakiGacYgacaGGVbGaai4zamaaBaaaleaacaaIYaaabeaakiaadchadaWgaaWcbaGaamyAaiaadQgaaeqaaaqaaiaadQgacqGH9aqpcaaIXaaabaGaam4AaaqdcqGHris5aOGaaiilaaaa@4613@

ahol p ij = m ij / m i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiCa8aadaWgaaWcbaWdbiaadMgacaWGQbaapaqabaGcpeGaeyypa0JaamyBa8aadaWgaaWcbaWdbiaadMgacaWGQbaapaqabaGcpeGaai4laiaad2gapaWaaSbaaSqaa8qacaWGPbaapaqabaaaaa@4086@ a j MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOAaaaa@36F9@ -edik osztály valószínűsége (értékeinek aránya) az i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik intervallumban. A felosztás teljes entrópiája, e MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyzaaaa@36F4@ , az egyedi intervallumok entrópiáinak súlyozott átlaga, azaz

e= i=1 n w i e i , MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaWGLbGaeyypa0ZaaabCaeaacaWG3bWaaSbaaSqaaiaadMgaaeqaaOGaamyzamaaBaaaleaacaWGPbaabeaakiaacYcaaSqaaiaadMgacqGH9aqpcaaIXaaabaGaamOBaaqdcqGHris5aaaa@3E6C@

ahol m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ az értékek száma, w i = m i /m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Da8aadaWgaaWcbaWdbiaadMgaa8aabeaak8qacqGH9aqpcaWGTbWdamaaBaaaleaapeGaamyAaaWdaeqaaOWdbiaac+cacaWGTbaaaa@3D67@ az értékek aránya az i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik intervallumban és n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaaaa@36FD@ az intervallumok száma. Érezhető, hogy egy intervallum entrópiája az intervallum tisztaságának mértéke. Ha egy intervallum csak egy osztályba tartozó értékeket tartalmaz (tökéletesen tiszta), akkor az entrópia 0 és semmivel sem járul hozzá a teljes entrópiához. Ha egy intervallumban egyforma gyakran fordulnak elő az értékek osztályai (az intervallum annyira kevert, amennyire csak lehetséges), akkor az entrópia értéke maximális.

A folytonos attribútumok felosztásának egy egyszerű megközelítése azzal indul, hogy úgy osztjuk ketté a kezdeti értékeket, hogy az így kapott két intervallum entrópiája minimális legyen. Ehhez a módszerhez mindössze arra van szükség, hogy minden értéket mint lehetséges osztópontot tekintsünk, mivel feltételezzük, hogy az intervallumok rendezett értékhalmazokat tartalmaznak. Ezután a felosztó eljárást megismételjük egy másik intervallummal, jellemzően a legrosszabb (legmagasabb) entrópiájú intervallumot kiválasztva, amíg el nem érünk egy, a felhasználó által meghatározott intervallumszámot vagy míg nem teljesül egy megállási feltétel.

2.13. Példa (Két attribútum diszkretizálása)

A fenti módszert arra használtuk, hogy egymástól függetlenül diszkretizáljuk a 2.14. ábrán látható kétdimenziós adatok x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ attribútumait. A 2.14. (a) ábrán látható első diszkretizálás során az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ és az y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ attribútumot is három intervallumra osztottuk. (Az osztópontokat szaggatott vonalak jelzik.) A 2.14. (b) ábrán látható második diszkretizálás során az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ és az y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ attribútumot egyaránt öt intervallumra osztottuk.

Ez az egyszerű példa két szempontra világít rá a diszkretizálással kapcsolatban. Egyrészt, két dimenzióban a pontok osztályai jól elkülönülnek egymástól, de egy dimenzióban ez már nincs így. Általánosságban elmondható, hogy az attribútumok önálló diszkretizálása gyakran csak az optimálisnál rosszabb eredményt garantál. Másrészt, öt intervallum jobb mint három, de hat intervallum már nem sokat javít a diszkretizáláson, legalábbis az entrópia szempontjából. (A hat intervallumra vonatkozó entrópia értékek és eredmények nincsenek feltüntetve.) Következésképpen, kívánatos egy olyan megállási feltétel, amely automatikusan megtalálja a megfelelő darabszámot.

2.14. ábra - Az x és y attribútumok diszkretizálása pontok négy csoportjára (osztályára)

Az x és y attribútumok diszkretizálása pontok négy csoportjára (osztályára)

Túl sok értékkel rendelkező kategorikus attribútumok

A kategorikus attribútumoknak néha túl sok értékük lehet. Ha a kategorikus attribútum egy sorrendi attribútum, akkor a folytonos attribútumokra alkalmazhatóakhoz hasonló módszerek használhatóak a kategóriák számának csökkentésére. Ha azonban a kategorikus attribútum névleges, akkor más megközelítésekre van szükség. Tekintsünk egy egyetemet, amelynek nagyszámú tanszéke van. Ebből következik, hogy egy Tanszéknév attribútumnak tucatnyi különböző értéke lehet. Ebben a helyzetben használhatjuk a különböző tanszékek közötti kapcsolatokról meglévő ismereteinket arra, hogy a tanszékeket nagyobb csoportokba rendezzük, mint például műszaki tudomány, társadalomtudomány vagy biológiai tudományok. Ha a szakterületi tudás nem bizonyul hasznos útmutatónak vagy egy ilyen megközelítés gyenge osztályozási hatékonyságot eredményez, akkor egy tapasztalatibb megközelítés alkalmazása szükséges, mint például ha csak akkor rendezzük egy csoportba az értékeket, ha ez a csoportosítás az osztályozás pontosságának javítását eredményezi, vagy valamilyen más adatbányászati cél elérését biztosítja.

Változó transzformáció

A változó transzformáció egy olyan átalakítást jelent, amelyet a változó minden értékére alkalmazunk. (Ragaszkodva a megszokott szóhasználathoz, inkább a változó kifejezést használjuk az attribútum helyett, bár esetenként attribútum transzformációként is fogunk rá hivatkozni.) Más szóval, a transzformációt mindegyik objektumnál alkalmazzuk a változó objektumértékeire. Ha egy változónak például csak a nagysága fontos, akkor a változó értékeit transzformálhatjuk azzal, hogy az abszolút értékét vesszük. A következő szakaszban a változó transzformációk két fontos típusát fogjuk tárgyalni: az elemi függvényeket és a normalizálást.

Elemi függvények

A változó transzformáció ezen típusánál egyenként minden értékre egy elemi matematikai függvényt alkalmazunk. Ha x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ egy változó, akkor például x k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaahaaWcbeqaa8qacaWGRbaaaaaa@3843@ , logx MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeiBaiaab+gacaqGNbGaamiEaaaa@39D2@ , e x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyza8aadaahaaWcbeqaa8qacaWG4baaaaaa@383D@ , x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeWaaOaaa8aabaWdbiaadIhaaSqabaaaaa@3741@ , 1/x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGymaiaac+cacaWG4baaaa@3875@ , sinx MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaae4CaiaabMgacaqGUbGaamiEaaaa@39DA@ , vagy |x| MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaiiFaiaadIhacaGG8baaaa@3907@ ilyen transzformációk. A statisztikában a változó transzformációk, különösen a x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeWaaOaaa8aabaWdbiaadIhaaSqabaaaaa@3741@ , logx MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeiBaiaab+gacaqGNbGaamiEaaaa@39D2@ , és az 1/x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGymaiaac+cacaWG4baaaa@3875@ gyakran kerülnek alkalmazásra azért, hogy a nem Gauss (normális) eloszlást követő adatokat normális eloszlásúvá alakítsák. Bár ez fontos lehet, az adatbányászatban gyakran más okok kerülnek előtérbe. Tegyük fel, hogy a kérdéses változó az adatbitek száma egy munkamenet során, és a bitek száma 1-től 1 milliárdig terjed. Ez egy hatalmas tartomány, és előnyös lehet a sűrítése egy log 10 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeiBaiaab+gacaqGNbWdamaaBaaaleaapeGaaGymaiaaicdaa8aabeaaaaa@3AA4@ transzformációval. Ez esetben a 10 8 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGymaiaaicdapaWaaWbaaSqabeaapeGaaGioaaaaaaa@388D@ és 10 9 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGymaiaaicdapaWaaWbaaSqabeaapeGaaGyoaaaaaaa@388E@ bit átvitellel járó munkamenetek jobban hasonlítanának egymásra, mint a 10 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGymaiaaicdaaaa@377F@ és 1000 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGymaiaaicdacaaIWaGaaGimaaaa@38F3@ bit átvitellel járók ( 98=1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGyoaiabgkHiTiaaiIdacqGH9aqpcaaIXaaaaa@3A3D@ -gyel szemben 31=2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaG4maiabgkHiTiaaigdacqGH9aqpcaaIYaaaaa@3A31@ ). Egyes alkalmazásoknál, mint például a hálózatokba való betörések észlelése, ez lehet az, amit keresünk, mivel az első két munkamenet nagy valószínűséggel nagyméretű fájlok átviteléte, míg az utóbbi két munkamenet teljesen eltérő típusú is lehet.

A változó transzformációk alkalmazása során körültekintően kell eljárni, mivel megváltoztathatja az adatok természetét. Bár ez lehet az, amire vágyunk, problémát okozhat, ha nem látjuk teljesen tisztán a transzformáció sajátosságait. Például az 1/x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGymaiaac+cacaWG4baaaa@3875@ transzformáció csökkenti az 1 és az annál nagyobb értékek nagyságát, de növeli a 0 és 1 közötti értékek nagyságát. Szemléltetésképpen az {1,2,3} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaaigdacaGGSaGaaGOmaiaacYcacaaIZaGaaiyFaaaa@3B9E@ értékek {1, 1 2 , 1 3 } MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaaigdacaGGSaWaaSaaa8aabaWdbiaaigdaa8aabaWdbiaaikdaaaGaaiilamaalaaapaqaa8qacaaIXaaapaqaa8qacaaIZaaaaiaac2haaaa@3DB0@ -á válnak, de az {1, 1 2 , 1 3 } MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaaigdacaGGSaWaaSaaa8aabaWdbiaaigdaa8aabaWdbiaaikdaaaGaaiilamaalaaapaqaa8qacaaIXaaapaqaa8qacaaIZaaaaiaac2haaaa@3DB0@ értékekre {1,2,3} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaaigdacaGGSaGaaGOmaiaacYcacaaIZaGaaiyFaaaa@3B9E@ az eredmény. Így az 1/x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGymaiaac+cacaWG4baaaa@3875@ transzformáció minden értékhalmazon megfordítja a sorrendet. Ahhoz, hogy világossá tegyük egy transzformáció hatását, fontos, hogy a következőekhez hasonló kérdéseket tegyünk fel. Fenn kell-e tartanunk a sorrendet? A transzformáció alkalmazható-e minden értékre, főleg negatív értékekre és 0-ra? Milyen hatással van a transzformáció a 0 és 1 közötti értékekre? A 95. oldalon található 17. feladat a változó transzformáció további tulajdonságait tárja fel.

Normalizálás és standardizálás

A változó transzformáció egy másik gyakran használt típusa a változó standardizálása vagy normalizálása. (Az adatbányász közösségben ezeket a kifejezéseket gyakran felcserélhetően használják. A statisztikában azonban a normalizálás kifejezés összetéveszthető azokkal a transzformációkkal, amelyek segítségével a változót normális, azaz Gauss eloszlásúvá teszik.) A standardizálás vagy normalizálás célja annak elérése, hogy egy teljes értékhalmaz rendelkezzen egy bizonyos tulajdonsággal. Ennek hagyományos példája ``egy változó standardizálása'' a statisztikában. Ha x ¯ MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGabmiEa8aagaqeaaaa@372E@ az attribútum értékek középértéke (átlaga) és s x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Ca8aadaWgaaWcbaWdbiaadIhaa8aabeaaaaa@3859@ azok szórása, akkor az x'=(x x ¯ )/ s x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaiaabEcacqGH9aqpcaGGOaGaamiEaiabgkHiTiqadIhapaGbaebapeGaaiykaiaac+cacaWGZbWdamaaBaaaleaapeGaamiEaaWdaeqaaaaa@4030@ transzformáció egy olyan új változót hoz létre, melynek átlaga 0 és szórása 1. Ha valamilyen módon különböző változókat akarunk kombinálni, akkor gyakran ez a transzformáció szükséges annak elkerülése végett, hogy egy nagy értékekkel rendelkező változó túlsúlyba kerüljön a számítások eredményeiben. Ennek illusztrálására tegyük fel, hogy két változó, kor és jövedelem, alapján hasonlítunk össze embereket. Bármely két ember esetén valószínűbb, hogy a jövedelmük különbsége abszolút értékben sokkal nagyobb, akár több száz vagy ezer dollár, lesz, mint a koruk közti különbség, mely legfeljebb 150. Ha nem vesszük figyelembe a különbséget a kor és a jövedelem értékeinek terjedelme között, akkor az emberek összehasonlítása során túlsúlyba fognak kerülni a jövedelmi különbségek. Különösen ha két ember hasonlóságát vagy különbözőségét a fejezet későbbi részében definiált hasonlósági vagy különbségi mértékekkel számoljuk, akkor sok esetben, mint például az euklideszi távolság esetében, a jövedelem értékek túlsúlyba fognak kerülni a számítások során.

Az átlagot és a szórást nagymértékben befolyásolják a kiugró értékek, ezért a fenti transzformációt gyakran módosítják. Egyrészt, az átlag helyére a medián, azaz a középső érték kerül. Másrészt, a szórás helyett az abszolút szórást használják. Konkrétan, ha x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ egy változó, akkor x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ abszolút szórását σ A = i=1 m | x i μ | MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacqaHdpWCdaWgaaWcbaGaamyqaaqabaGccqGH9aqpdaaeWbqaamaaemaabaGaamiEamaaBaaaleaacaWGPbaabeaakiabgkHiTiabeY7aTbGaay5bSlaawIa7aaWcbaGaamyAaiabg2da9iaaigdaaeaacaWGTbaaniabggHiLdaaaa@4348@ adja, ahol x i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaadMgaa8aabeaaaaa@384F@ a változó i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik értéke, m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ az objektumok száma, μ MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqiVd0gaaa@37C0@ pedig az átlag vagy a medián. Más olyan megközelítésekkel, amelyek értékek egy halmazának a helyzetét (középpontját) és kiterjedését becsülik kiugró értékek jelenlétében, a 3.2.3. és a 3.2.4. szakaszban foglalkozunk. Ezek a mértékek használhatóak standardizálási transzformáció definiálására is.

Hasonlósági és különbözőségi mértékek

A hasonlóság és különbözőség azért fontos, mert számos adatbányászati módszer, például a klaszterezés, a legközelebbi szomszéd osztályozás és a rendellenesség-észlelés, alkalmazza őket. Sok esetben az eredeti adatállományra már nincs is szükség, miután ezeket a hasonlóságokat vagy különbözőségeket kiszámítottuk. Az ilyen megközelítéseket tekinthetjük úgy, hogy az adatokat leképezzük egy hasonlósági (különbözőségi) térre, és ezután végezzük el az elemzést.

Először az alapokat tárgyaljuk: a hasonlóság és különbözőség általános definícióit és a közöttük lévő kapcsolatot. Az egyszerűség kedvéért a szomszédság kifejezést használjuk a hasonlóságra és a különbözőségre történő hivatkozásnál egyaránt. Mivel két objektum szomszédsága egy, a két objektum megfelelő attribútumainak szomszédságából előálló függvény, ezért először azt írjuk le, hogyan mérjük az egyetlen egyszerű attribútummal rendelkező objektumok szomszédságát, és ezután tekintjük a több attribútummal rendelkező objektumok szomszédsági mértékeit. Ide tartoznak olyan mértékek is, mint a korreláció vagy az euklideszi távolság, melyek hasznosak olyan sűrű adatoknál, mint az idősorok vagy a kétdimenziós pontok, csakúgy, mint a Jaccard és a koszinusz hasonlósági mértékek, amelyek ritka adatoknál, például dokumentumok esetén, használhatóak jól. Ezután számos fontos, a szomszédsági mértékekkel kapcsolatban felmerülő kérdést tárgyalunk. A szakasz végén röviden megvitatjuk, hogyan válasszuk ki a megfelelő szomszédsági mértéket.

Alapok

Definíciók

Egyszerűen fogalmazva két objektum hasonlósága annak numerikus mértéke, hogy a két objektum mennyire hasonló. Ebből következik, hogy a hasonlóság nagyobb olyan objektumpárokra, amelyek jobban hasonlítanak egymáshoz. A hasonlóságok általában nemnegatívak és gyakran 0 (nincs hasonlóság) és 1 (teljes hasonlóság) közötti értékeket vesznek fel.

Két objektum különbözősége annak numerikus mértéke, hogy a két objektum mennyire különböző. A különbözőségek kisebbek az egymásra jobban hasonlító objektumpárokra. Előfordul, hogy a távolság kifejezést a különbözőség szinonimájaként alkalmazzák, bár, mint látni fogjuk, a távolságot gyakran a különbözőségek egy speciális csoportjára értik. A különbözőségek esetenként a [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ intervallumba esnek, de a 0-tól MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqOhIukaaa@3779@ -ig terjedő tartomány alkalmazása is gyakori.

Transzformációk

Gyakran alkalmazunk transzformációkat, hogy hasonlóságot különbözőséggé alakítsunk, illetve megfordítva, különbözőséget hasonlósággá, vagy hogy úgy alakítsunk át egy szomszédsági mértéket, hogy egy megadott intervallumba, például a [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ -be essen. Lehetnek például olyan hasonlósági mértékeink, amelyek tartománya 1 és 10 közé esik, de a konkrét algoritmus vagy szoftver, amivel dolgozunk, lehet hogy úgy lett megtervezve, hogy csak különbözőségekkel, vagy csak [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ intervallumba eső hasonlóságokkal működik. Azért itt tárgyaljuk ezeket a kérdéseket, mert ilyen transzformációkat fogunk alkalmazni a későbbiekben, a szomszédság tárgyalása során. Továbbá, ezek a kérdések aránylag függetlenek a konkrét szomszédsági mértékek részleteitől.

A szomszédsági mértékek, főleg a hasonlóságok, gyakran úgy vannak definiálva vagy transzformálva, hogy az értékeik a [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ intervallumba essenek. Ennek röviden az az oka, hogy olyan skálát használjunk, amely a hasonlóság (vagy különbözőség) arányát mutatja két objektum között. Általában az ilyen transzformáció viszonylag egyszerű. Ha például az objektumok közötti hasonlóságok 1-től (egyáltalán nem hasonló) 10-ig (teljesen hasonló) terjednek, egy s'=(s1)/9 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4CaiaabEcacqGH9aqpcaGGOaGaam4CaiabgkHiTiaaigdacaGGPaGaai4laiaaiMdaaaa@3E21@ transzformáció alkalmazásával elérhetjük, hogy a [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ intervallumba essenek, ahol s MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Caaaa@3702@ és s' MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4CaiaabEcaaaa@37AC@ az eredeti, illetve az új hasonlósági értékeket jelölik. Általánosabban, a hasonlóságok [0,1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGGSaGaaGymaiaac2faaaa@39EF@ intervallumra való leképezését a következő kifejezés adja: s'=(smins)/(maxsmins) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4CaiaabEcacqGH9aqpcaGGOaGaam4CaiabgkHiTiaad2gacaWGPbGaamOBaiaadohacaGGPaGaai4laiaacIcacaWGTbGaamyyaiaadIhacaWGZbGaeyOeI0IaamyBaiaadMgacaWGUbGaam4CaiaacMcaaaa@4A4C@ , ahol maxs MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaiaadggacaWG4bGaam4Caaaa@39D7@ és mins MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaiaadMgacaWGUbGaam4Caaaa@39D5@ a maximális, illetve a minimális hasonlósági értékeket jelölik. Hasonlóképpen, a véges terjedelmű különbözőségi mértékeket is leképezhetjük a [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ intervallumra, a d'=(dmind)/(maxdmind) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaabEcacqGH9aqpcaGGOaGaamizaiabgkHiTiaad2gacaWGPbGaamOBaiaadsgacaGGPaGaai4laiaacIcacaWGTbGaamyyaiaadIhacaWGKbGaeyOeI0IaamyBaiaadMgacaWGUbGaamizaiaacMcaaaa@4A01@ képlet alkalmazásával.

Azonban a szomszédsági mértékek [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ intervallumra történő leképezése során különböző komplikációk léphetnek fel. Ha például a hasonlósági mérték eredetileg a [0;] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaeqOhIuQaaiyxaaaa@3AB2@ intervallumból veszi fel értékeit, akkor nemlineáris transzformációra van szükség, és az új skálán nem lesz ugyanolyan a kapcsolat az értékek között. Tekintsük a d'=d/(1+d) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaabEcacqGH9aqpcaWGKbGaai4laiaacIcacaaIXaGaey4kaSIaamizaiaacMcaaaa@3E1E@ transzformációt egy olyan különbözőségi mértékre, amely értékei 0-tól MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqOhIukaaa@3779@ -ig terjednek. A 0, 0,5, 2, 10 és 1000 különbözőségi értékekből rendre a 0, 0,33, 0,67, 0,90, 0,99 és 0,999 új különbözőségi értékek fognak előállni. Az eredeti különbözőségi skálán szereplő nagy értékek az 1-hez közeli értékek körül besűrűsödnek, de az, hogy ez előnyös-e vagy sem, az alkalmazástól függ. Egy másik lehetséges bonyodalom, hogy megváltozhat a szomszédsági mérték jelentése. Például a korreláció, amelyet később tárgyalunk, egy olyan hasonlósági mérték, mely a [1;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiabgkHiTiaaigdacaGG7aGaaGymaiaac2faaaa@3AEC@ intervallumból veszi fel az értékeit. Ha úgy képezzük le a [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ intervallumra, hogy vesszük az abszolút értékét, elveszítjük az előjel-információkat, amelyek egyes alkalmazásoknál fontosak lehetnek. Lásd a 22. feladatot a 97. oldalon.

A hasonlóságok különbözőségekké alakítása és ennek megfordítása is viszonylag egyszerű, bár itt is felmerül a jelentés megőrzésének és a lineáris skálák nemlineárissá való átalakulásának kérdése. Ha a hasonlóság (vagy különbözőség) a [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ intervallumba esik, akkor a különbözőséget (hasonlóságot) a következőképpen definiálhatjuk: d=1s MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiabg2da9iaaigdacqGHsislcaWGZbaaaa@3A99@ ( s=1d MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Caiabg2da9iaaigdacqGHsislcaWGKbaaaa@3A99@ ). Egy másik egyszerű megközelítés, ha a hasonlóságot a különbözőség ellentettjeként definiáljuk (vagy fordítva). Ezt szemléltetendő, a 0, 1, 10 és 100 különbözőségi értékek rendre a 0, 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOeI0IaaGymaaaa@37B2@ , 10 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOeI0IaaGymaiaaicdaaaa@386C@ és 100 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOeI0IaaGymaiaaicdacaaIWaaaaa@3926@ hasonlósági értékekké transzformálhatók.

A negáció transzformáció eredményeképpen előálló hasonlóságok nincsenek a [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ terjedelemre korlátozva, de ha ez szükséges, alkalmazhatunk olyan transzformációkat, mint az s= 1 d+1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Caiabg2da9maalaaapaqaa8qacaaIXaaapaqaa8qacaWGKbGaey4kaSIaaGymaaaaaaa@3B97@ , s= e d MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Caiabg2da9iaadwgapaWaaWbaaSqabeaapeGaeyOeI0Iaamizaaaaaaa@3B14@ , vagy s=1 dmind maxdmind MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Caiabg2da9iaaigdacqGHsisldaWcaaWdaeaapeGaamizaiabgkHiTiaad2gacaWGPbGaamOBaiaadsgaa8aabaWdbiaad2gacaWGHbGaamiEaiaadsgacqGHsislcaWGTbGaamyAaiaad6gacaWGKbaaaaaa@47F7@ . Az s= 1 d+1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Caiabg2da9maalaaapaqaa8qacaaIXaaapaqaa8qacaWGKbGaey4kaSIaaGymaaaaaaa@3B97@ transzformáció alkalmazásával a 0, 1, 10, 100 különbözőségeket rendre a következő értékekké alakítjuk: 1, 0,5, 0,09, 0,01. Az s= e d MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Caiabg2da9iaadwgapaWaaWbaaSqabeaapeGaeyOeI0Iaamizaaaaaaa@3B14@ transzformációval ezekből rendre az 1,00, 0,37, 0,00, 0,00 értékek, míg az s=1 dmind maxdmind MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Caiabg2da9iaaigdacqGHsisldaWcaaWdaeaapeGaamizaiabgkHiTiaad2gacaWGPbGaamOBaiaadsgaa8aabaWdbiaad2gacaWGHbGaamiEaiaadsgacqGHsislcaWGTbGaamyAaiaad6gacaWGKbaaaaaa@47F7@ alkalmazásával rendre az 1,00, 0,99, 0,00, 0,00 értékek állnak elő. Ebben a részben a különbözőségek hasonlóságokká alakítására koncentráltunk. Az ellenkező irányú konverziót a 98. oldalon a 23. feladatban tárgyaljuk.

Általánosságban, bármilyen monoton csökkenő függvény felhasználásával átalakíthatunk különbözőségeket hasonlóságokká, és fordítva. Természetesen más tényezőket is figyelembe kell venni mind a hasonlóságok különbözőségekké alakításakor, mind ennek fordítottja esetén, mind pedig egy szomszédsági mérték értékeinek más skálára való leképezésekor. Megemlíthetjük a jelentés megőrzésével, a skála torzulásával és az adatelemző eszközök követelményeivel kapcsolatos kérdéseket, de ez a lista nyilván nem teljes.

Egyszerű attribútumok hasonlósága és különbözősége

A több attribútummal rendelkező objektumok szomszédságát általában úgy határozzuk meg, hogy azok egyedi attribútumainak szomszédságait egyesítjük, ezért először az egyetlen attribútummal rendelkező objektumok szomszédságát tárgyaljuk. Tekintsük az egyetlen névleges attribútummal leírt objektumokat. Mit jelentene két ilyen objektum esetén, hogy hasonlóak? Mivel a névleges attribútumok csak az objektumok különbözőségéről hordoznak információkat, csak azt mondhatjuk, hogy két objektumnak ugyanaz-e az értéke vagy sem. Ezért ebben az esetben hagyományosan úgy definiáljuk a hasonlóságot, hogy értéke 1, ha az attribútumok megegyeznek és 0 egyébként. A különbözőséget ellentétes módon definiálhatjuk: 0, ha az attribútumok megegyeznek, és 1, ha nem.

Egyszerű sorrendi attribútummal rendelkező objektumok esetén a helyzet bonyolultabb, mivel figyelembe kell vennünk a sorrendre vonatkozó információkat. Tekintsünk egy olyan attribútumot, ami egy termék, például egy csokiszelet minőségét méri a {gyenge,elfogadható,átlagos,,finom} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaabEgacaqG5bGaaeyzaiaab6gacaqGNbGaaeyzaiaacYcacaqGLbGaaeiBaiaabAgacaqGVbGaae4zaiaabggacaqGKbGaaeiAaiaabggacaqG0bGaae48aiaacYcacaqGHdGaaeiDaiaabYgacaqGHbGaae4zaiaab+gacaqGZbGaaiilaiaabQgacaqGZdGaaiilaiaabAgacaqGPbGaaeOBaiaab+gacaqGTbGaaiyFaaaa@5909@ skálán. Ésszerűnek tűnik, hogy egy P1 termék, amely értékelése finom, közelebb van egy P2, értékelésű termékhez, mint egy P3 termékhez, amelynek értékelése átlagos. Hogy ezt a megfigyelést számszerűsítsük, a sorrendi attribútum értékeit gyakran leképezzük egymást követő egész számokra, 0-tól vagy 1-től kezdve, például {gyenge=0,elfogadható=1,átlagos=2,=3,finom=4} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaabEgacaqG5bGaaeyzaiaab6gacaqGNbGaaeyzaiabg2da9iaaicdacaGGSaGaaeyzaiaabYgacaqGMbGaae4BaiaabEgacaqGHbGaaeizaiaabIgacaqGHbGaaeiDaiaabopacqGH9aqpcaaIXaGaaiilaiaabgoacaqG0bGaaeiBaiaabggacaqGNbGaae4BaiaabohacqGH9aqpcaaIYaGaaiilaiaabQgacaqGZdGaeyypa0JaaG4maiaacYcacaqGMbGaaeyAaiaab6gacaqGVbGaaeyBaiabg2da9iaaisdacaGG9baaaa@61D3@ . Ekkor d(P1,P2)=32=1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaqGqbGaaGymaiaacYcacaqGqbGaaGOmaiaacMcacqGH9aqpcaaIZaGaeyOeI0IaaGOmaiabg2da9iaaigdaaaa@4146@ , vagy ha azt akarjuk, hogy a különbözőség értéke 0 és 1 közé essen, d(P1,P2)= 32 4 =0,25 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaqGqbGaaGymaiaacYcacaqGqbGaaGOmaiaacMcacqGH9aqpdaWcaaWdaeaapeGaaG4maiabgkHiTiaaikdaa8aabaWdbiaaisdaaaGaeyypa0JaaGimaiaacYcacaaIYaGaaGynaaaa@447C@ . Sorrendi attribútumok hasonlóságát s=1d MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Caiabg2da9iaaigdacqGHsislcaWGKbaaaa@3A99@ módon definiálhatjuk.

A hasonlóság (különbözőség) sorrendi attribútumokra adott ezen definíciója valószínűleg kényelmetlen érzést kelt az Olvasóban, mivel egyenlő távolságokat tételez fel, pedig ez nincs így. Ellenkező esetben intervallum vagy hányados attribútumunk lenne. Vajon az elfogadható és a értékek között tényleg ugyanannyi a különbség, mint az átlagos és a finom értékek között? Valószínűleg nem, de a gyakorlatban korlátozottak a lehetőségeink, és további információk hiányában ez a sorrendi attribútumok közötti szomszédság definiálásának szabványos módja.

Intervallum vagy hányados attribútumokra a két objektum különbözőségének magától értetődő mértéke az értékeik abszolút különbsége. Összehasonlíthatjuk például a jelenlegi súlyunkat az egy évvel korábbi súlyunkkal úgy, hogy ``10 kilóval nehezebb vagyok''. Az ehhez hasonló esetekben a különbözőségek jellemzően inkább 0-tól MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqOhIukaaa@3779@ -ig terjednek, mint 0-tól 1-ig. Az intervallum vagy hányados attribútumok hasonlósága jellemzően egy, a korábban leírtakhoz hasonló, a különbözőséget hasonlósággá alakító transzformáció révén fejezhető ki.

A 2.7. táblázat összegzi ezeket a részeket. Ebben a táblázatban x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ a két objektum, amelyek egy, a jelölt típusba tartozó attribútummal rendelkeznek. Emellett d(x,y) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWG4bGaaiilaiaadMhacaGGPaaaaa@3AF7@ illetve s(x,y) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4CaiaacIcacaWG4bGaaiilaiaadMhacaGGPaaaaa@3B06@ jelöli x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ különbözőségét illetve hasonlóságát. Más megközelítések is lehetségesek, azonban ezek a leggyakoribbak.

A következő két szakaszban összetettebb szomszédsági mértékekkel foglalkozunk, amelyek több attribútumot tartalmazó objektumokra vonatkoznak: (1) adatobjektumok különbözőségeivel és (2) adatobjektumok hasonlóságaival. Ez a felosztás teszi lehetővé számunkra, hogy még természetesebben mutassuk be az alkalmazott szomszédsági mértékek mögötti indokokat. Hangsúlyozzuk azonban, hogy a hasonlóságok különbözőségekkel, illetve fordítva, a különbözőségek hasonlóságokká alakíthatóak át a korábban leírt módokon.

Adatobjektumok különbözőségei

Ebben a szakaszban különböző típusú különbözőségekkel foglalkozunk. A távolságok tárgyalásával kezdjük, amelyek meghatározott tulajdonságokkal rendelkező különbözőségek, és ezután adunk példákat általánosabb különbözőségekre.

Távolságok

Először néhány példát mutatunk, majd a távolság egy formálisabb definícióját adjuk az összes távolságra érvényes közös tulajdonságok alapján. Két pont, x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ közötti d MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaaaa@36F3@ euklideszi távolságot egy-, két-, három- vagy magasabb dimenziójú térben a következő képlettel adjuk meg:

d(x,y)= k=1 n ( x k y k ) 2 , MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaWGKbGaaiikaiaahIhacaWHSaGaaCyEaiaacMcacqGH9aqpdaGcaaqaamaaqahabaWaaeWaaeaacaWG4bWaaSbaaSqaaiaadUgaaeqaaOGaeyOeI0IaamyEamaaBaaaleaacaWGRbaabeaaaOGaayjkaiaawMcaamaaCaaaleqabaGaaGOmaaaaaeaacaWGRbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoaaSqabaGccaGGSaaaaa@4610@ (2.1)

ahol n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaaaa@36FD@ a dimenziók száma, és x k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaadUgaa8aabeaaaaa@3851@ illetve y k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEa8aadaWgaaWcbaWdbiaadUgaa8aabeaaaaa@3852@ pedig x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Aaaaa@36FA@ -adik attribútumai (koordinátái). Ezt a képletet a 2.15. ábrával és a 2.8. és 2.9. táblázatokkal szemléltetjük, melyek egy ponthalmazt, ezen pontok x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ koordinátáit, és az ezen pontok párjainak távolságát tartalmazó távolsági mátrixot mutatják.

(2.1) egyenlet által adott euklideszi távolsági mértéket (2.2) egyenletben leírt Minkowski távolság metrika általánosítja:

d(x,y)= ( k=1 n | x k y k | r ) 1/r , MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaWGKbGaaiikaiaahIhacaWHSaGaaCyEaiaacMcacqGH9aqpdaqadaqaamaaqahabaWaaqWaaeaacaWG4bWaaSbaaSqaaiaadUgaaeqaaOGaeyOeI0IaamyEamaaBaaaleaacaWGRbaabeaaaOGaay5bSlaawIa7amaaCaaaleqabaGaamOCaaaaaeaacaWGRbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoaaOGaayjkaiaawMcaamaaCaaaleqabaGaaGymaiaac+cacaWGYbaaaOGaaiilaaaa@4BED@ (2.2)

ahol r MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOCaaaa@3701@ egy paraméter. A három leggyakoribb példa Minkowski távolságra a következő.

  • r=1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOCaiabg2da9iaaigdaaaa@38C2@ : háztömb (Manhattan, taxi, L 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiaaigdaa8aabeaaaaa@37F0@ norma) távolság. Ismert példa erre a Hamming távolság, mely a különböző bitek száma két csak bináris attribútumokkal rendelkező objektum, azaz két bináris vektor között.

  • r=2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOCaiabg2da9iaaikdaaaa@38C3@ : euklideszi távolság ( L 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiaaikdaa8aabeaaaaa@37F1@ norma).

  • r= MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOCaiabg2da9iabe6HiLcaa@3976@ : szupremum távolság ( L max MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiaad2gacaWGHbGaamiEaaWdaeqaaaaa@3A0A@ norma vagy L MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiabe6HiLcWdaeqaaaaa@38A4@ norma). Ez a maximális különbség az objektumok bármelyik attribútumában. Formálisan az L MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiabe6HiLcWdaeqaaaaa@38A4@ távolságot (2.3) képlet definiálja:

d(x,y)= lim r ( k=1 n | x k y k | r ) 1/r . MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaWGKbGaaiikaiaahIhacaWHSaGaaCyEaiaacMcacqGH9aqpdaWfqaqaaiGacYgacaGGPbGaaiyBaaWcbaGaamOCaiabgkziUkabg6HiLcqabaGcdaqadaqaamaaqahabaWaaqWaaeaacaWG4bWaaSbaaSqaaiaadUgaaeqaaOGaeyOeI0IaamyEamaaBaaaleaacaWGRbaabeaaaOGaay5bSlaawIa7amaaCaaaleqabaGaamOCaaaaaeaacaWGRbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoaaOGaayjkaiaawMcaamaaCaaaleqabaGaaGymaiaac+cacaWGYbaaaOGaaiOlaaaa@5358@ (2.3)

Ne tévesszük össze az r MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOCaaaa@3701@ paramétert a dimenziók (attribútumok) számával, n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaaaa@36FD@ -el. Az euklideszi, Manhattan és szuprémum távolságok n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaaaa@36FD@ minden 1,2,3, MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGymaiaacYcacaaIYaGaaiilaiaaiodacaGGSaGaeyOjGWlaaa@3BDC@ értékére definiáltak, és minden dimenzióban különböző módszereket határoznak meg az egyes dimenziók különbségének a teljes távolságban való egyesítésére.

A 2.10., illetve 2.11. táblázatok a 2.8. táblázat adatainak felhasználásával adják meg az L 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiaaigdaa8aabeaaaaa@37F0@ és az L MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiabe6HiLcWdaeqaaaaa@38A4@ távolság szomszédsági mátrixait. Megjegyezzük, hogy mindezek a távolsági mátrixok szimmetrikusak, azaz az ij MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaiaadQgaaaa@37E7@ -edik elemük megegyezik a ji MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOAaiaadMgaaaa@37E7@ -edik elemükkel. A 2.9. táblázatban például az első oszlop negyedik sora és az első sor negyedik oszlopa is az 5,1 értéket tartalmazza.

2.15. ábra - A koszinusz mérték geometriai ábrázolása

A koszinusz mérték geometriai ábrázolása

2.8. táblázat - A négy pont x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ koordinátái

pont

x koordináta

y koordináta

p1

0

2

p2

2

0

p3

3

1

p4

5

1


2.9. táblázat - Euklideszi távolsági mátrix a 2.8. táblázathoz

p1

p2

p3

p4

p1

0,0

2,8

3,2

5,1

p2

2,8

0,0

1,4

3,2

p3

3,2

1,4

0,0

2,0

p4

5,1

3,2

2,0

0,0


2.10. táblázat - L1 távolsági mátrix a 2.8. táblázathoz

L 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiaaigdaa8aabeaaaaa@37F0@

p1

p2

p3

p4

p1

0,0

4,0

4,0

6,0

p2

4,0

0,0

2,0

4,0

p3

4,0

2,0

0,0

2,0

p4

6,0

4,0

2,0

0,0


2.11. táblázat - L MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaqGmbWaaSbaaSqaaiabg6HiLcqabaaaaa@3426@ távolsági mátrix a 2.8. táblázathoz

L MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiabe6HiLcWdaeqaaaaa@38A4@

p1

p2

p3

p4

p1

0,0

2,0

3,0

5,0

p2

2,0

0,0

1,0

3,0

p3

3,0

1,0

0,0

2,0

p4

5,0

3,0

2,0

0,0


A távolságok, mint például az euklideszi távolság, néhány közismert tulajdonsággal rendelkeznek. Ha az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ pontok távolsága d(x,y) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWH4bGaaiilaiaahMhacaGGPaaaaa@3AFF@ , akkor a következő tulajdonságok teljesülnek.

1. Pozitivitás

  1. d(x,y)0 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaeyyzImRaaGimaaaa@3D7F@ minden x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ -re és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -ra,

  2. d(x,y)=0 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaeyypa0JaaGimaaaa@3CBF@ akkor és csak akkor, ha x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ = y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ .

2. Szimmetria

d(x,y)=d(y,x) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaeyypa0JaamizaiaacIcacaWH5bGaaiilaiaahIhacaGGPaaaaa@40FA@ minden x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ -re és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -ra.

3. Háromszög egyenlőtlenség

d(x,z)d(x,y)+d(y,z) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWH4bGaaiilaiaahQhacaGGPaGaeyizImQaamizaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaey4kaSIaamizaiaacIcacaWH5bGaaiilaiaahQhacaGGPaaaaa@4783@ minden x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ , y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ és z MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCOEaaaa@370D@ pontra.

Metrikáknak nevezzük az olyan mértékeket, amelyek mindhárom tulajdonsággal rendelkeznek. Egyesek a távolság kifejezést csak olyan különbözőségi mértékekre használják, amelyek ezekkel a tulajdonságokkal rendelkeznek, de ezt a gyakorlatot gyakran megszegik. Az itt leírt három tulajdonság egyaránt hasznos és matematikailag jól kezelhető. Továbbá, ha fennáll a háromszög egyenlőtlenség, akkor ezen tulajdonság felhasználásával növelhetjük az olyan módszerek hatékonyságát (ideértve például a klaszterezést), amelyek ezen tulajdonság meglététől függenek. (Lásd a 25. feladatot.) Mindazonáltal sok különbözőség nem elégít ki egyet vagy többet a metrikák tulajdonságai közül. Ilyen mértékekre adunk két példát.

2.14. Példa (Nem-metrikus különbözőségek: halmazkülönbségek)

Ez a példa két halmaz különbségének a halmazelméletben definiált fogalmán alapul. Ha adott két halmaz, A MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyqaaaa@36D0@ és B MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOqaaaa@36D1@ , AB MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyqaiabgkHiTiaadkeaaaa@3884@ azon elemek halmaza, amelyek A-nak elemei, de nem szerepelnek B MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOqaaaa@36D1@ -ben. Például, ha A={1,2,3,4} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyqaiabg2da9iaacUhacaaIXaGaaiilaiaaikdacaGGSaGaaG4maiaacYcacaaI0aGaaiyFaaaa@3ED8@ és B={2,3,4} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOqaiabg2da9iaacUhacaaIYaGaaiilaiaaiodacaGGSaGaaGinaiaac2haaaa@3D6E@ , akkor AB={1} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyqaiabgkHiTiaadkeacqGH9aqpcaGG7bGaaGymaiaac2haaaa@3C45@ és BA= MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOqaiabgkHiTiaadgeacqGH9aqpcqaHfiIXaaa@3B01@ , az üres halmaz. Definiálhatjuk az A MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyqaaaa@36D0@ és B MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOqaaaa@36D1@ halmazok d távolságát a következőképpen: d(A,B)= méret (AB) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWGbbGaaiilaiaadkeacaGGPaGaeyypa0JaaeiOaiaad2gacaqGPdGaamOCaiaadwgacaWG0bGaaeiOaiaacIcacaWGbbGaeyOeI0IaamOqaiaacMcaaaa@46E0@ , ahol a  méret  MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeiOaiaad2gacaqGPdGaamOCaiaadwgacaWG0bGaaeiOaaaa@3D88@ egy olyan függvény, amely egy halmaz elemszámát adja vissza. Ez a távolsági mérték, ami egy 0-nál nagyobb vagy egyenlő egész érték, nem elégíti ki a pozitivitási tulajdonság második részét, a szimmetria tulajdonságot, és a háromszög egyenlőtlenséget. Azonban megoldható, hogy ezek a tulajdonságok fennálljanak, amennyiben a különbözőségi mértéket a következőképpen módosítjuk: d(A,B)= méret (AB)+ méret (BA) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWGbbGaaiilaiaadkeacaGGPaGaeyypa0JaaeiOaiaad2gacaqGPdGaamOCaiaadwgacaWG0bGaaeiOaiaacIcacaWGbbGaeyOeI0IaamOqaiaacMcacqGHRaWkcaqGGcGaamyBaiaabMoacaWGYbGaamyzaiaadshacaqGGcGaaiikaiaadkeacqGHsislcaWGbbGaaiykaaaa@5313@ . Lásd a 19. feladatot exer:set_difference. oldalon.

2.15. Példa (Nem-metrikus különbözőségek: idő)

Ez a példa egy még mindennapibb példát ad olyan különbözőségi mértékre, ami nem metrikus, mégis hasznos. Definiáljuk a nap időpontjainak távolságát a következőképpen:

d( t 1 , t 2 )={ t 2 t 1 , ha t 1 t 2 24+( t 2 t 1 ), ha t 1 t 2 }. MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWG0bWdamaaBaaaleaapeGaaGymaaWdaeqaaOWdbiaacYcacaWG0bWdamaaBaaaleaapeGaaGOmaaWdaeqaaOWdbiaacMcacqGH9aqpdaGadaWdaeaafaqaaeGacaaabaWdbiaadshapaWaaSbaaSqaa8qacaaIYaaapaqabaGcpeGaeyOeI0IaamiDa8aadaWgaaWcbaWdbiaaigdaa8aabeaak8qacaGGSaaapaqaa8qacaWGObGaamyyaiaadshapaWaaSbaaSqaa8qacaaIXaaapaqabaGcpeGaeyizImQaamiDa8aadaWgaaWcbaWdbiaaikdaa8aabeaaaOqaa8qacaaIYaGaaGinaiabgUcaRiaacIcacaWG0bWdamaaBaaaleaapeGaaGOmaaWdaeqaaOWdbiabgkHiTiaadshapaWaaSbaaSqaa8qacaaIXaaapaqabaGcpeGaaiykaiaacYcaa8aabaWdbiaadIgacaWGHbGaamiDa8aadaWgaaWcbaWdbiaaigdaa8aabeaak8qacqGHLjYScaWG0bWdamaaBaaaleaapeGaaGOmaaWdaeqaaaaaaOWdbiaawUhacaGL9baacaGGUaaaaa@60F6@ (2.4)

Szemléltetésképpen, d(1PM,2PM) = 1 óra, míg d(2PM,1PM) = 23 óra. Egy ilyen definíció értelmes lehet például, ha a következő kérdést akarjuk megválaszolni: ``Ha egy esemény minden nap délután 1-kor következik be, és most délután 2 van, meddig kell várnom, hogy az esemény ismét bekövetkezzen?''

Hasonlóságok adatobjektumok között

A hasonlóságokra jellemzően nem áll fenn a háromszög egyenlőtlenség (vagy egy azzal analóg tulajdonság), de a szimmetria és a pozitivitás jellemzően igen. Konkrétan, ha s(x,y) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4CaiaacIcacaWH4bGaaiilaiaahMhacaGGPaaaaa@3B0E@ az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ pontok hasonlósága, akkor a hasonlóságok jellemző tulajdonságai a következők:

1. s(x,y)=1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4CaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaeyypa0JaaGymaaaa@3CCF@ akkor és csak akkor, ha x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ = y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ ( 0s1). MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGimaiabgsMiJkaadohacqGHKjYOcaaIXaGaaiykaiaac6caaaa@3D40@

2. s(x,y)=s(y,x) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4CaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaeyypa0Jaam4CaiaacIcacaWH5bGaaiilaiaahIhacaGGPaaaaa@4118@ minden x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ -re és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -ra (szimmetria).

A hasonlósági mértékekre nincs általános megfelelője a háromszög egyenlőtlenségnek. Azonban esetenként lehetséges annak bizonyítása, hogy egy hasonlósági mérték könnyedén átalakítható egy metrikus távolsággá. A koszinusz és Jaccard hasonlósági mértékek, amelyeket rövidesen tárgyalunk, ennek két példája. Továbbá, meghatározott hasonlósági mértékekre a háromszög egyenlőtlenség szellemében lehetséges, hogy két hasonló objektum hasonlóságára matematikai korlátokat határozzunk meg.

2.16. Példa (Egy nem szimmetrikus hasonlósági mérték)

Tekintsünk egy kísérletet, melyben embereket kérünk meg, hogy néhány karaktert osztályozzanak, ahogy azok felvillannak a képernyőn. Az erre a kísérletre vonatkozó tévesztési mátrix tartalmazza azt, hogy milyen gyakran osztályozzák az egyes karaktereket saját magukként, és milyen gyakran osztályozzák egy másikként. Tegyük fel például, hogy a ``0'' 200 alkalommal tűnt fel, és ``0''-nak sorolták be 160 alkalommal, de 40 alkalommal ``o''-nak. Hasonlóképpen feltételezzük, hogy az ``o'' 200 alkalommal jelent meg, és ``o''-nak sorolták be 170 alkalommal, de ``0''-ként 30 alkalommal. Ha ezeket a darabszámokat a két karakter közötti hasonlóság egy mértékének tekintjük, akkor egy olyan hasonlósági mértéket kapunk, amely nem szimmetrikus. Ilyen esetekben a hasonlósági mértéket gyakran szimmetrikussá teszik az s'(x,y)=s'(y,x)=(s(x,y)+s(y,x))/2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4CaiaabEcacaGGOaGaaCiEaiaacYcacaWH5bGaaiykaiabg2da9iaabohacaqGNaGaaiikaiaahMhacaGGSaGaaCiEaiaacMcacqGH9aqpcaGGOaGaam4CaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaey4kaSIaam4CaiaacIcacaWH5bGaaiilaiaahIhacaGGPaGaaiykaiaac+cacaaIYaaaaa@5122@ meghatározásával, ahol s' MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4CaiaabEcaaaa@37AC@ jelöli az új hasonlósági mértéket.

Példák szomszédsági mértékekre

Ebben a részben konkrét példákat mutatunk néhány hasonlósági és különbözőségi mértékre.

Hasonlósági mértékek bináris adatokra

Az olyan objektumok hasonlósági mértékeit, amelyek csak bináris attribútumokkal rendelkeznek, hasonlósági együtthatóknak nevezzük, és jellemzően 0 és 1 között veszik fel értékeiket. Az 1 érték azt jelzi, hogy a két objektum teljesen hasonló, míg a 0 érték azt jelzi, hogy az objektumok egyáltalán nem hasonlítanak. Számos okfejtés ismert arról, hogy bizonyos esetekben az egyik együttható miért jobb egy másiknál.

Legyen x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ két olyan objektum, amelyek n MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaaaa@36FD@ darab bináris attribútumból állnak. Két ilyen objektum, azaz két bináris vektor összehasonlítása a következő négy mennyiséghez (gyakorisághoz) vezet:

f 00 = MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOza8aadaWgaaWcbaWdbiaaicdacaaIWaaapaqabaGcpeGaeyypa0daaa@39E3@ azon attribútumok száma, ahol x=0 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabg2da9iaaicdaaaa@38CB@ és y=0 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaaicdaaaa@38CC@

f 01 = MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOza8aadaWgaaWcbaWdbiaaicdacaaIXaaapaqabaGcpeGaeyypa0daaa@39E4@ azon attribútumok száma, ahol x=0 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabg2da9iaaicdaaaa@38CB@ és y=1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaaigdaaaa@38CD@

f 10 = MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOza8aadaWgaaWcbaWdbiaaigdacaaIWaaapaqabaGcpeGaeyypa0daaa@39E4@ azon attribútumok száma, ahol x=1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabg2da9iaaigdaaaa@38CC@ és y=0 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaaicdaaaa@38CC@

f 11 = MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOza8aadaWgaaWcbaWdbiaaigdacaaIXaaapaqabaGcpeGaeyypa0daaa@39E5@ azon attribútumok száma, ahol x=1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabg2da9iaaigdaaaa@38CC@ és y=1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaaigdaaaa@38CD@

Egyszerű egyezés együttható Az egyszerű egyezés együttható (SMC -- Simple Matching Coefficient) egy gyakran használt hasonlósági együttható, melyet a következőképpen definiálunk:

SMC= egyezőattribútumértékekszáma attribútumokszáma = f 11 + f 00 f 01 + f 10 + f 11 + f 00 . MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4uaiaad2eacaWGdbGaeyypa0ZaaSaaa8aabaWdbiaadwgacaWGNbGaamyEaiaadwgacaWG6bGaaeyubiaadggacaWG0bGaamiDaiaadkhacaWGPbGaamOyaiaabQpacaWG0bGaamyDaiaad2gacaqGPdGaamOCaiaadshacaqGPdGaam4AaiaadwgacaWGRbGaam4CaiaadQhacaqGHdGaamyBaiaadggaa8aabaWdbiaadggacaWG0bGaamiDaiaadkhacaWGPbGaamOyaiaabQpacaWG0bGaamyDaiaad2gacaWGVbGaam4AaiaadohacaWG6bGaaey4aiaad2gacaWGHbaaaiabg2da9maalaaapaqaa8qacaWGMbWdamaaBaaaleaapeGaaGymaiaaigdaa8aabeaak8qacqGHRaWkcaWGMbWdamaaBaaaleaapeGaaGimaiaaicdaa8aabeaaaOqaa8qacaWGMbWdamaaBaaaleaapeGaaGimaiaaigdaa8aabeaak8qacqGHRaWkcaWGMbWdamaaBaaaleaapeGaaGymaiaaicdaa8aabeaak8qacqGHRaWkcaWGMbWdamaaBaaaleaapeGaaGymaiaaigdaa8aabeaak8qacqGHRaWkcaWGMbWdamaaBaaaleaapeGaaGimaiaaicdaa8aabeaaaaGcpeGaaiOlaaaa@7DB1@ (2.5)

Ez a mérték egyformán számolja a jelenlévő és a hiányzó értékeket. Ebből következik, hogy az SMC MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4uaiaad2eacaWGdbaaaa@387C@ akkor használható, ha olyan hallgatókat keresünk, akik hasonlóan válaszoltak a kérdésekre egy csak igaz-hamis kérdésekből álló teszten.

Jaccard együttható Tegyük fel, hogy x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ olyan adatobjektumok, amelyeket egy tranzakciós mátrix két sora (két tranzakciója) reprezentál (lásd a 2.1.2. szakaszt). Ha minden aszimmetrikus bináris attribútum egy termékhez tartozik egy áruházban, akkor egy 1-es a tétel megvásárlását jelzi, míg egy 0 azt, hogy a tételt nem vásárolták meg. Mivel azok a termékek, amelyeket az adott vevő nem vett meg, jóval nagyobb számúak, mint azok, amelyeket megvett, egy olyan hasonlósági mérték, mint például az SMC MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4uaiaad2eacaWGdbaaaa@387C@ , azt mutatná, hogy minden tranzakció nagyon hasonló. Ezért használják gyakran a Jaccard együtthatót aszimmetrikus bináris attribútumokból álló objektumok kezelésére. A gyakran J MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOsaaaa@36D9@ -vel jelölt Jaccard együtthatót a következő egyenlet adja:

J= az egyező előfordulások száma a 00 egyezéseken kívüli attribútumok száma = f 11 f 01 + f 10 + f 11 . MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOsaiabg2da9maalaaapaqaa8qacaqGHbGaaeOEaiaabccacaqGLbGaae4zaiaabMhacaqGLbGaaeOEaiaabgvacaqGGaGaaeyzaiaabYgacaqGrfGaaeOzaiaab+gacaqGYbGaaeizaiaabwhacaqGSbGaaey4aiaabohacaqGVbGaae4AaiaabccacaqGZbGaaeOEaiaabgoacaqGTbGaaeyyaaWdaeaapeGaaeyyaiaabccacaqGWaGaaeimaiaabccacaqGLbGaae4zaiaabMhacaqGLbGaaeOEaiaabMoacaqGZbGaaeyzaiaabUgacaqGLbGaaeOBaiaabccacaqGRbGaaey7aiaabAhacaqG8dGaaeiBaiaabMgacaqGGaGaaeyyaiaabshacaqG0bGaaeOCaiaabMgacaqGIbGaaeO+aiaabshacaqG1bGaaeyBaiaab+gacaqGRbGaaeiiaiaabohacaqG6bGaaey4aiaab2gacaqGHbaaaiabg2da9maalaaapaqaa8qacaWGMbWdamaaBaaaleaapeGaaGymaiaaigdaa8aabeaaaOqaa8qacaWGMbWdamaaBaaaleaapeGaaGimaiaaigdaa8aabeaak8qacqGHRaWkcaWGMbWdamaaBaaaleaapeGaaGymaiaaicdaa8aabeaak8qacqGHRaWkcaWGMbWdamaaBaaaleaapeGaaGymaiaaigdaa8aabeaaaaGcpeGaaiOlaaaa@8A18@ (1.6)

2.17. Példa (Az SMC és a Jaccard hasonlósági együtthatók)

Hogy szemléltessük a két hasonlósági mérték közötti különbséget, kiszámítjuk az SMC MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4uaiaad2eacaWGdbaaaa@387C@ -t és a J MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOsaaaa@36D9@ -t a következő két bináris vektorra.

x=(1,0,0,0,0,0,0,0,0,0) y=(0,0,0,0,0,0,1,0,0,1) f 01 =2    azon attribútumok száma, ahol x értéke 0, y értéke pedig 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOabaeqabaaeaaaaaaaaa8qacaWH4bGaeyypa0JaaiikaiaaigdacaGGSaGaaGimaiaacYcacaaIWaGaaiilaiaaicdacaGGSaGaaGimaiaacYcacaaIWaGaaiilaiaaicdacaGGSaGaaGimaiaacYcacaaIWaGaaiilaiaaicdacaGGPaaabaGaaCyEaiabg2da9iaacIcacaaIWaGaaiilaiaaicdacaGGSaGaaGimaiaacYcacaaIWaGaaiilaiaaicdacaGGSaGaaGimaiaacYcacaaIXaGaaiilaiaaicdacaGGSaGaaGimaiaacYcacaaIXaGaaiykaaqaaiaadAgapaWaaSbaaSqaa8qacaaIWaGaaGymaaWdaeqaaOWdbiabg2da9iaaikdacaqGGcGaaeiOaiaabckacaqGGcGaaeyyaiaabQhacaqGVbGaaeOBaiaabccacaqGHbGaaeiDaiaabshacaqGYbGaaeyAaiaabkgacaqG6dGaaeiDaiaabwhacaqGTbGaae4BaiaabUgacaqGGaGaae4CaiaabQhacaqGHdGaaeyBaiaabggacaqGSaGaaeiiaiaabggacaqGObGaae4BaiaabYgacaqGGaWdaiaabIhacaqGGaGaaey6aiaabkhacaqG0bGaaey6aiaabUgacaqGLbGaaeiiaiaabcdacaqGSaGaaeiiaiaabMhacaqGGaGaaey6aiaabkhacaqG0bGaaey6aiaabUgacaqGLbGaaeiiaiaabchacaqGLbGaaeizaiaabMgacaqGNbGaaeiiaiaabgdaaaaa@9648@

f 10 =2    azon attribútumok száma, ahol x értéke 1, y értéke pedig 0 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOza8aadaWgaaWcbaWdbiaaigdacaaIWaaapaqabaGcpeGaeyypa0JaaGOmaiaabckacaqGGcGaaeiOaiaabckacaqGHbGaaeOEaiaab+gacaqGUbGaaeiiaiaabggacaqG0bGaaeiDaiaabkhacaqGPbGaaeOyaiaabQpacaqG0bGaaeyDaiaab2gacaqGVbGaae4AaiaabccacaqGZbGaaeOEaiaabgoacaqGTbGaaeyyaiaabYcacaqGGaGaaeyyaiaabIgacaqGVbGaaeiBaiaabccacaqG4bGaaeiiaiaabMoacaqGYbGaaeiDaiaabMoacaqGRbGaaeyzaiaabccacaqGXaGaaeilaiaabccacaqG5bGaaeiiaiaabMoacaqGYbGaaeiDaiaabMoacaqGRbGaaeyzaiaabccacaqGWbGaaeyzaiaabsgacaqGPbGaae4zaiaabccacaqGWaaaaa@7485@

f 00 =2    azon attribútumok száma, ahol x értéke 0, y értéke pedig 0 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOza8aadaWgaaWcbaWdbiaaicdacaaIWaaapaqabaGcpeGaeyypa0JaaGOmaiaabckacaqGGcGaaeiOaiaabckacaqGHbGaaeOEaiaab+gacaqGUbGaaeiiaiaabggacaqG0bGaaeiDaiaabkhacaqGPbGaaeOyaiaabQpacaqG0bGaaeyDaiaab2gacaqGVbGaae4AaiaabccacaqGZbGaaeOEaiaabgoacaqGTbGaaeyyaiaabYcacaqGGaGaaeyyaiaabIgacaqGVbGaaeiBaiaabccacaqG4bGaaeiiaiaabMoacaqGYbGaaeiDaiaabMoacaqGRbGaaeyzaiaabccacaqGWaGaaeilaiaabccacaqG5bGaaeiiaiaabMoacaqGYbGaaeiDaiaabMoacaqGRbGaaeyzaiaabccacaqGWbGaaeyzaiaabsgacaqGPbGaae4zaiaabccacaqGWaaaaa@7483@

f 11 =2    azon attribútumok száma, ahol x értéke 1, y értéke pedig 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOza8aadaWgaaWcbaWdbiaaigdacaaIXaaapaqabaGcpeGaeyypa0JaaGOmaiaabckacaqGGcGaaeiOaiaabckacaqGHbGaaeOEaiaab+gacaqGUbGaaeiiaiaabggacaqG0bGaaeiDaiaabkhacaqGPbGaaeOyaiaabQpacaqG0bGaaeyDaiaab2gacaqGVbGaae4AaiaabccacaqGZbGaaeOEaiaabgoacaqGTbGaaeyyaiaabYcacaqGGaGaaeyyaiaabIgacaqGVbGaaeiBaiaabccacaqG4bGaaeiiaiaabMoacaqGYbGaaeiDaiaabMoacaqGRbGaaeyzaiaabccacaqGXaGaaeilaiaabccacaqG5bGaaeiiaiaabMoacaqGYbGaaeiDaiaabMoacaqGRbGaaeyzaiaabccacaqGWbGaaeyzaiaabsgacaqGPbGaae4zaiaabccacaqGXaaaaa@7487@

SMC= f 11 + f 00 f 01 + f 10 + f 11 + f 00 = 0+7 2+1+0+7 =0,7 J= f 11 f 01 + f 10 + f 11 = 0 2+1+0 =0 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOabaeqabaaeaaaaaaaaa8qacaWGtbGaamytaiaadoeacqGH9aqpdaWcaaWdaeaapeGaamOza8aadaWgaaWcbaWdbiaaigdacaaIXaaapaqabaGcpeGaey4kaSIaamOza8aadaWgaaWcbaWdbiaaicdacaaIWaaapaqabaaakeaapeGaamOza8aadaWgaaWcbaWdbiaaicdacaaIXaaapaqabaGcpeGaey4kaSIaamOza8aadaWgaaWcbaWdbiaaigdacaaIWaaapaqabaGcpeGaey4kaSIaamOza8aadaWgaaWcbaWdbiaaigdacaaIXaaapaqabaGcpeGaey4kaSIaamOza8aadaWgaaWcbaWdbiaaicdacaaIWaaapaqabaaaaOWdbiabg2da9maalaaapaqaa8qacaaIWaGaey4kaSIaaG4naaWdaeaapeGaaGOmaiabgUcaRiaaigdacqGHRaWkcaaIWaGaey4kaSIaaG4naaaacqGH9aqpcaaIWaGaaiilaiaaiEdaaeaacaWGkbGaeyypa0ZaaSaaa8aabaWdbiaadAgapaWaaSbaaSqaa8qacaaIXaGaaGymaaWdaeqaaaGcbaWdbiaadAgapaWaaSbaaSqaa8qacaaIWaGaaGymaaWdaeqaaOWdbiabgUcaRiaadAgapaWaaSbaaSqaa8qacaaIXaGaaGimaaWdaeqaaOWdbiabgUcaRiaadAgapaWaaSbaaSqaa8qacaaIXaGaaGymaaWdaeqaaaaak8qacqGH9aqpdaWcaaWdaeaapeGaaGimaaWdaeaapeGaaGOmaiabgUcaRiaaigdacqGHRaWkcaaIWaaaaiabg2da9iaaicdaaaaa@718F@

Koszinusz hasonlóság

A dokumentumokat gyakran vektorokként ábrázoljuk, ahol minden attribútum egy adott kifejezés (szó) előfordulási gyakoriságát fejezi ki a dokumentumban. Természetesen ez ennél bonyolultabb, mivel bizonyos gyakori szavakat figyelmen kívül hagyunk, és különböző előfeldolgozási módszerek felhasználásával kezeljük ugyanazon szó különböző formáit, a dokumentumok különböző hosszúságait és a szavak különböző gyakoriságait.

Bár a dokumentumoknak több ezer vagy több tízezer attribútuma (kifejezése) van, minden dokumentum ritka, mivel viszonylag kevés nem-nulla attribútuma van. (A dokumentumoknál használt normalizáló módszerek nem hoznak létre nem-nulla bejegyzéseket nulla bejegyzések helyén, azaz megőrzik a ritkaságot.) Így, csakúgy mint a tranzakciós adatoknál, a hasonlóság nem függ a 0 értékek számától, mivel nem valószínű, hogy két dokumentum ugyanazokat a szavakat ``nem tartalmazza'', ezért ha megszámolnánk a 0-0 egyezéseket, a legtöbb dokumentum nagy mértékben hasonlítana a többi dokumentumhoz. Ezért egy dokumentumokra alkalmazott hasonlósági mértéknek figyelmen kívül kell hagynia a 0-0 egyezéseket, csakúgy, mint a Jaccard mértéknek, de emellett tudnia kell nem bináris vektorokat kezelni. A következőkben definiált koszinusz hasonlóság a dokumentumok hasonlóságának egyik legelterjedtebb mértéke. Ha x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ két dokumentumvektor, akkor

cos(x,y)= xy x    y , MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaae4yaiaab+gacaqGZbGaaiikaiaahIhacaGGSaGaaCyEaiaacMcacqGH9aqpdaWcaaWdaeaapeGaaCiEaiaackcicaWH5baapaqaa8qacqWILicucaWH4bGaeSyjIaLaaeiOaiaabckacaqGGcGaaeiOaiablwIiqjaahMhacqWILicuaaGaaiilaaaa@4CE0@ (2.7)

ahol MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaiOiGaaa@36D0@ jelzi a vektorok belső szorzatát, xy= k=1 n x k y k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaWH4bGaaCOiGiaahMhacqGH9aqpdaaeWbqaaiaadIhadaWgaaWcbaGaam4AaaqabaGccaWG5bWaaSbaaSqaaiaadUgaaeqaaaqaaiaadUgacqGH9aqpcaaIXaaabaGaamOBaaqdcqGHris5aaaa@3FA6@ , x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeSyjIaLaaCiEaiablwIiqbaa@395B@ pedig az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ vektor hossza, x = k=1 n x k 2 = xx MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaadaqbdaqaaiaahIhaaiaawMa7caGLkWoacqGH9aqpdaGcaaqaamaaqahabaGaamiEamaaDaaaleaacaWGRbaabaGaaGOmaaaaaeaacaWGRbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoaaSqabaGccqGH9aqpdaGcaaqaaiaahIhacqGHflY1caWH4baaleqaaaaa@452B@ .

2.18. Példa (Két dokumentumvektor koszinusz hasonlósága)

Ebben a példában kiszámoljuk a koszinusz hasonlóságot a következő két adatobjektum között, amelyek dokumentumvektorokat is reprezentálhatnak:

x=(3,2,0,5,0,0,0,2,0,0) y=(1,0,0,0,0,0,0,1,0,2) xy=3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2=5 x= 3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0 =6,48 y= 1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2 =2,45 cos(x,y)=0,31 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOabaeqabaaeaaaaaaaaa8qacaWH4bGaeyypa0JaaiikaiaaiodacaGGSaGaaGOmaiaacYcacaaIWaGaaiilaiaaiwdacaGGSaGaaGimaiaacYcacaaIWaGaaiilaiaaicdacaGGSaGaaGOmaiaacYcacaaIWaGaaiilaiaaicdacaGGPaaabaGaaCyEaiabg2da9iaacIcacaaIXaGaaiilaiaaicdacaGGSaGaaGimaiaacYcacaaIWaGaaiilaiaaicdacaGGSaGaaGimaiaacYcacaaIWaGaaiilaiaaigdacaGGSaGaaGimaiaacYcacaaIYaGaaiykaaqaaiaahIhacaGGIaIaaCyEaiabg2da9iaaiodacaqGQaGaaGymaiabgUcaRiaaikdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaiwdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaikdacaqGQaGaaGymaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGOmaiabg2da9iaaiwdaaeaacqWILicucaWH4bGaeSyjIaLaeyypa0ZaaOaaa8aabaWdbiaaiodacaqGQaGaaG4maiabgUcaRiaaikdacaqGQaGaaGOmaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaiwdacaqGQaGaaGynaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaikdacaqGQaGaaGOmaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaaWcbeaakiabg2da9iaaiAdacaGGSaGaaGinaiaaiIdaaeaacqWILicucaWH5bGaeSyjIaLaeyypa0ZaaOaaa8aabaWdbiaaigdacaqGQaGaaGymaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaigdacaqGQaGaaGymaiabgUcaRiaaicdacaqGQaGaaGimaiabgUcaRiaaikdacaqGQaGaaGOmaaWcbeaakiabg2da9iaaikdacaGGSaGaaGinaiaaiwdaaeaacaWHJbGaaC4BaiaahohacaGGOaGaaCiEaiaacYcacaWH5bGaaiykaiabg2da9iaaicdacaGGSaGaaG4maiaaigdaaaaa@D136@

Mint ahogy a 2.16. ábra mutatja, a koszinusz hasonlóság valójában az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ által bezárt szög koszinuszának a mértéke. Ezért ha a koszinusz hasonlóság 1, akkor az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ által bezárt szög 0 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGima8aadaahaaWcbeqaa8qacqWIyiYBaaaaaa@384A@ -os, és x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ a nagyságukat (hosszukat) leszámítva megegyeznek. Ha a koszinusz hasonlóság 0, akkor az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ által bezárt szög 90 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGyoaiaaicdapaWaaWbaaSqabeaapeGaeSigI8gaaaaa@390D@ -os, és nincsenek közös kifejezéseik (szavaik).

2.16. ábra - A koszinusz mérték geometriai ábrázolása

A koszinusz mérték geometriai ábrázolása

A (2.7) egyenlet felírható (2.8) egyenlet formájában.

cos(x,y)= x x y y =x'y', MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaae4yaiaab+gacaqGZbGaaiikaiaahIhacaGGSaGaaCyEaiaacMcacqGH9aqpdaWcaaWdaeaapeGaaCiEaaWdaeaapeGaeSyjIaLaaCiEaiablwIiqbaacqGHflY1daWcaaWdaeaapeGaaCyEaaWdaeaapeGaeSyjIaLaaCyEaiablwIiqbaacqGH9aqpcaWH4bGaae4jaiabgwSixlaahMhacaqGNaGaaiilaaaa@50CD@ (2.8)

ahol x'=x/x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiaabEcacqGH9aqpcaWH4bGaai4laiablwIiqjaahIhacqWILicuaaa@3DC0@ és y'=y/y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiaabEcacqGH9aqpcaWH5bGaai4laiablwIiqjaahMhacqWILicuaaa@3DC3@ . Azzal, hogy x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ -et és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -t elosztjuk a hosszukkal, normalizáljuk őket, hogy a hosszuk 1 legyen. Ez azt jelenti, hogy a koszinusz hasonlóság nem veszi figyelembe a két adatobjektum nagyságát a hasonlóság kiszámítása során. (Ha a nagyság fontos, akkor az euklideszi távolság jobb választásnak bizonyulhat.) Az 1 hosszúságú vektorokra a koszinusz távolság egy egyszerű belső szorzattal számítható ki. Következésképpen, ha nagyon sok objektum közötti koszinusz távolságot számítunk ki, az objektumok egységnyi hosszra való normalizálása csökkenti a szükséges időt.

Kiterjesztett Jaccard együttható (Tanimoto együttható)

A kiterjesztett Jaccard együttható használható dokumentumadatokhoz, és bináris attribútumok esetén a Jaccard együtthatóvá egyszerűsödik. A kiterjesztett Jaccard együttható Tanimoto együtthatóként is ismert. (Azonban egy másik együttható is ismert Tanimoto együttható néven.) Ezt az együtthatót, amit EJ MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyraiaadQeaaaa@37A3@ -vel fogunk jelölni, a következő egyenlet definiálja:

EJ(x,y)= xy x 2 +y 2 xy . MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyraiaadQeacaGGOaGaaCiEaiaacYcacaWH5bGaaiykaiabg2da9maalaaapaqaa8qacaWH4bGaeyyXICTaaCyEaaWdaeaapeGaeSyjIaLaaCiEaiablwIiq9aadaahaaWcbeqaa8qacaaIYaaaaOGaey4kaSIaeSyjIaLaaCyEaiablwIiq9aadaahaaWcbeqaa8qacaaIYaaaaOGaeyOeI0IaaCiEaiabgwSixlaahMhaaaGaaiOlaaaa@50E5@ (2.9)

Korreláció

Két bináris vagy folytonos változókkal rendelkező adatobjektum közötti korreláció az objektumok attribútumai közötti lineáris kapcsolat mértéke. (Az attribútumok közötti korreláció kiszámítását, ami ismertebb, hasonlóképpen definiálhatjuk.) Konkrétabban, a két adatobjektum, x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ , közötti Pearson-féle korrelációs együtthatót a következő egyenlettel definiáljuk:

 korreláció (x,y)= kovariancia(x,y)  szórás (x)szórás (y) = s xy s x s y , MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeiOaiaadUgacaWGVbGaamOCaiaadkhacaWGLbGaamiBaiaabgoacaWGJbGaamyAaiaabopacaqGGcGaaiikaiaahIhacaGGSaGaaCyEaiaacMcacqGH9aqpdaWcaaWdaeaapeGaam4Aaiaad+gacaWG2bGaamyyaiaadkhacaWGPbGaamyyaiaad6gacaWGJbGaamyAaiaadggacaGGOaGaaCiEaiaacYcacaWH5bGaaiykaaWdaeaapeGaaeiOaiaadohacaWG6bGaae48aiaadkhacaqGHdGaam4CaiaabckacaGGOaGaaCiEaiaacMcacaqGQaGaaeiOaiaadohacaWG6bGaae48aiaadkhacaqGHdGaam4CaiaabckacaGGOaGaaCyEaiaacMcaaaGaeyypa0ZaaSaaa8aabaWdbiaadohapaWaaSbaaSqaa8qacaWG4bGaamyEaaWdaeqaaaGcbaWdbiaadohapaWaaSbaaSqaa8qacaWG4baapaqabaGcpeGaam4Ca8aadaWgaaWcbaWdbiaadMhaa8aabeaaaaGcpeGaaiilaaaa@77E5@ (2.10)

ahol a következő szokásos statisztikai jelöléseket és definíciókat alkalmaztuk:

kovariancia(x,y)= s xy = 1 n1 k=1 n ( x k x ¯ ) ( y k y ¯ ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaqGRbGaae4BaiaabAhacaqGHbGaaeOCaiaabMgacaqGHbGaaeOBaiaabogacaqGPbGaaeyyaiaabIcacaWH4bGaaCilaiaahMhacaqGPaGaaeypaiaadohadaWgaaWcbaGaamiEaiaadMhaaeqaaOGaeyypa0ZaaSaaaeaacaaIXaaabaGaamOBaiabgkHiTiaaigdaaaWaaabCaeaadaqadaqaaiaadIhadaWgaaWcbaGaam4AaaqabaGccqGHsisldaqdaaqaaiaadIhaaaaacaGLOaGaayzkaaaaleaacaWGRbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoakmaabmaabaGaamyEamaaBaaaleaacaWGRbaabeaakiabgkHiTmaanaaabaGaamyEaaaaaiaawIcacaGLPaaaaaa@5986@ (2.11)

szórás(x)= s x = 1 n1 k=1 n ( x k x ¯ ) 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaqGZbGaaeOEaiaabopacaqGYbGaaey4aiaabohacaGGOaGaaCiEaiaacMcacqGH9aqpcaWGZbWaaSbaaSqaaiaadIhaaeqaaOGaeyypa0ZaaOaaaeaadaWcaaqaaiaaigdaaeaacaWGUbGaeyOeI0IaaGymaaaadaaeWbqaamaabmaabaGaamiEamaaBaaaleaacaWGRbaabeaakiabgkHiTmaanaaabaGaamiEaaaaaiaawIcacaGLPaaadaahaaWcbeqaaiaaikdaaaaabaGaam4Aaiabg2da9iaaigdaaeaacaWGUbaaniabggHiLdaaleqaaaaa@4EEF@

szórás(y)= s y = 1 n1 k=1 n ( y k y ¯ ) 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaqGZbGaaeOEaiaabopacaqGYbGaaey4aiaabohacaGGOaGaaCyEaiaacMcacqGH9aqpcaWGZbWaaSbaaSqaaiaadMhaaeqaaOGaeyypa0ZaaOaaaeaadaWcaaqaaiaaigdaaeaacaWGUbGaeyOeI0IaaGymaaaadaaeWbqaamaabmaabaGaamyEamaaBaaaleaacaWGRbaabeaakiabgkHiTmaanaaabaGaamyEaaaaaiaawIcacaGLPaaadaahaaWcbeqaaiaaikdaaaaabaGaam4Aaiabg2da9iaaigdaaeaacaWGUbaaniabggHiLdaaleqaaaaa@4EF3@

x ¯ = 1 n k=1 n x k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaaceWG4bGbaebacqGH9aqpdaWcaaqaaiaaigdaaeaacaWGUbaaamaaqahabaGaamiEamaaBaaaleaacaWGRbaabeaaaeaacaWGRbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoaaaa@3D87@ az X átlaga

y ¯ = 1 n k=1 n y k MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaaceWG5bGbaebacqGH9aqpdaWcaaqaaiaaigdaaeaacaWGUbaaamaaqahabaGaamyEamaaBaaaleaacaWGRbaabeaaaeaacaWGRbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoaaaa@3D88@ az y átlaga

2.19. Példa (Tökéletes korreláció)

A korreláció mindig a 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOeI0IaaGymaaaa@37B2@ és 1 közötti tartományban van. Az 1 ( 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOeI0IaaGymaaaa@37B2@ ) értékű korreláció azt jelenti, hogy x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ tökéletes pozitív (negatív) kapcsolatban állnak egymással, azaz x k =a y k +b MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaadUgaa8aabeaak8qacqGH9aqpcaWGHbGaamyEa8aadaWgaaWcbaWdbiaadUgaa8aabeaak8qacqGHRaWkcaWGIbaaaa@3E82@ , ahol a MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyyaaaa@36F0@ és b MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOyaaaa@36F1@ konstansok. A következő két, x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ -re és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -ra vonatkozó értéksorozat olyan eseteket mutat, ahol a korreláció 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOeI0IaaGymaaaa@37B2@ illetve 1. Az egyszerűség kedvéért x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ átlagát mindkét esetben 0-nak választottuk.

x=(3,6,0,3,6) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabg2da9iaacIcacqGHsislcaaIZaGaaiilaiaaiAdacaGGSaGaaGimaiaacYcacaaIZaGaaiilaiabgkHiTiaaiAdacaGGPaaaaa@41B8@

y=(1,2,0,1,2) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaacIcacaaIXaGaaiilaiabgkHiTiaaikdacaGGSaGaaGimaiaacYcacqGHsislcaaIXaGaaiilaiaaikdacaGGPaaaaa@41AD@

x=(3,6,0,3,6) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabg2da9iaacIcacaaIZaGaaiilaiaaiAdacaGGSaGaaGimaiaacYcacaaIZaGaaiilaiaaiAdacaGGPaaaaa@3FDE@

y=(1,2,0,1,2) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaacIcacaaIXaGaaiilaiaaikdacaGGSaGaaGimaiaacYcacaaIXaGaaiilaiaaikdacaGGPaaaaa@3FD3@

2.20. Példa (Nemlineáris kapcsolatok)

Ha a korreláció értéke 0, akkor a két adatobjektum attribútumai között nincs lineáris kapcsolat. Nemlineáris kapcsolat azonban még lehet. A következő példában y k = x k 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEa8aadaWgaaWcbaWdbiaadUgaa8aabeaak8qacqGH9aqpcaWG4bWdamaaDaaaleaapeGaam4AaaWdaeaapeGaaGOmaaaaaaa@3C86@ , ennek ellenére korrelációjuk 0.

x=(3,2,1,0,1,2,3) y=(9,4,1,0,1,4,9) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOabaeqabaaeaaaaaaaaa8qacaWH4bGaeyypa0JaaiikaiabgkHiTiaaiodacaGGSaGaeyOeI0IaaGOmaiaacYcacqGHsislcaaIXaGaaiilaiaaicdacaGGSaGaaGymaiaacYcacaaIYaGaaiilaiaaiodacaGGPaaabaGaaCyEaiabg2da9iaacIcacaaI5aGaaiilaiaaisdacaGGSaGaaGymaiaacYcacaaIWaGaaiilaiaaigdacaGGSaGaaGinaiaacYcacaaI5aGaaiykaaaaaa@522D@

2.21. Példa (A korreláció szemléltetése)

Könnyű megítélni az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ adatobjektumok közötti korrelációt, ha a megfelelő attribútumértékek párjait ábrázoljuk. A 2.17. ábra néhány ilyen grafikont mutat, ahol x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ -nek és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -nak 30 attribútuma volt, és ezen attribútumok értékei (normális eloszlás alapján) véletlenszerűen lettek generálva, így az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ közötti korreláció 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyOeI0IaaGymaaaa@37B2@ -től 1-ig terjed. A grafikonokon minden kör a 30 attribútum egyikét jelöli; az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ koordináta az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ egyik attribútumának értéke, míg az y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ koordináta ugyanazon attribútum értéke y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -nál.

2.17. ábra - Korrelációt szemléltető pontdiagramok -1-től 1-ig

Korrelációt szemléltető pontdiagramok -1-től 1-ig

Ha úgy transzformáljuk x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ -et és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -t, hogy kivonjuk az átlagaikat és normalizáljuk őket, hogy a hosszuk 1 legyen, akkor a korrelációjuk kiszámítható úgy, hogy egyszerűen vesszük a belső szorzatukat. Megjegyezzük, hogy ez nem ugyanaz a standardizálás, mint amit más helyzetekben használunk, amikor az x k' =( x k x ¯ )/ s x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaadUgacaqGNaaapaqabaGcpeGaeyypa0JaaiikaiaadIhapaWaaSbaaSqaa8qacaWGRbaapaqabaGcpeGaeyOeI0IabmiEa8aagaqea8qacaGGPaGaai4laiaadohapaWaaSbaaSqaa8qacaWG4baapaqabaaaaa@42F8@ és y k' =( y k y ¯ )/ s y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEa8aadaWgaaWcbaWdbiaadUgacaqGNaaapaqabaGcpeGaeyypa0JaaiikaiaadMhapaWaaSbaaSqaa8qacaWGRbaapaqabaGcpeGaeyOeI0IabmyEa8aagaqea8qacaGGPaGaai4laiaadohapaWaaSbaaSqaa8qacaWG5baapaqabaaaaa@42FC@ transzformációkat végezzük el.

Bregman divergencia* Ebben a szakaszban a Bregman divergenciát ismertetjük röviden, amely néhány közös tulajdonsággal rendelkező szomszédsági függvény egy családja. Eredményeképpen olyan általános adatbányászati algoritmusokat, például klaszterező algoritmusokat alkothatunk, amelyek tetszőleges Bregman divergenciával működnek. Erre konkrét példa a K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ -közép klaszterező algoritmus (lásd 8.2. fejezetet). Megjegyezzük, hogy ehhez a szakaszhoz a vektorkalkulus ismeretére van szükség.

A Bregman divergenciák veszteség- vagy torzításfüggvények. Hogy megértsük a veszteségfüggvény fogalmát, tekintsük a következőket. Legyen x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ két pont, ahol y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -t tekintjük az eredeti pontnak, és x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ annak valamilyen torzulása vagy közelítése. Például, x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ lehet egy generált pont úgy, hogy véletlen zajt adtunk y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -hoz. A cél az, hogy megmérjük a torzítást vagy veszteséget, ami annak az eredménye, hogy y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -t közelítettük x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ -szel. Természetesen x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ minél hasonlóbbak, a veszteség vagy torzítás annál kisebb. Így a Bregman divergenciákat használhatjuk különbözőségi mértékként.

Formálisabban a következő definíciót kapjuk.

2.6. Definíció (Bregman divergencia) Ha adott egy ϕ MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqy1dygaaa@37D2@ szigorúan konvex függvény (pár kisebb megszorítással, amelyek általában teljesülnek), akkor az ezen függvény által generált D(x,y) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiraiaacIcacaWH4bGaaiilaiaahMhacaGGPaaaaa@3ADF@ Bregman divergenciát (veszteségfüggvényt) a következő egyenlet adja:

D(x,y)=ϕ(x)ϕ(y)ϕ(y),(xy), MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiraiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaeyypa0Jaeqy1dyMaaiikaiaahIhacaGGPaGaeyOeI0Iaeqy1dyMaaiikaiaahMhacaGGPaGaeyOeI0IaeyykJeUaey4bIeTaeqy1dyMaaiikaiaahMhacaGGPaGaaiilaiaacIcacaWH4bGaeyOeI0IaaCyEaiaacMcacqGHQms8caGGSaaaaa@54D9@ (2.12)

ahol ϕ(y) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaey4bIeTaeqy1dyMaaiikaiaahMhacaGGPaaaaa@3BB3@ a ϕ MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqy1dygaaa@37D2@ y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -ban kiértékelt gradiense, xy MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabgkHiTiaahMhaaaa@38FA@ x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ vektorkülönbsége, és ϕ(y),(xy) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeyykJeUaey4bIeTaeqy1dyMaaiikaiaahMhacaGGPaGaaiilaiaacIcacaWH4bGaeyOeI0IaaCyEaiaacMcacqGHQms8aaa@442F@ a ϕ(x) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaey4bIeTaeqy1dyMaaiikaiaahIhacaGGPaaaaa@3BB2@ és (xy) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaiikaiaahIhacqGHsislcaWH5bGaaiykaaaa@3A53@ vektorok belső szorzata. Az euklideszi tér pontjaira a belső szorzat egyszerű skalárszorzat.

D(x,y) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiraiaacIcacaWH4bGaaiilaiaahMhacaGGPaaaaa@3ADF@ felírható D(x,y)=ϕ(x)L(x) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiraiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaeyypa0Jaeqy1dyMaaiikaiaahIhacaGGPaGaeyOeI0IaamitaiaacIcacaWH4bGaaiykaaaa@441F@ alakban, ahol L(x)=ϕ(y)+ϕ(y),(xy) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamitaiaacIcacaWH4bGaaiykaiabg2da9iabew9aMjaacIcacaWH5bGaaiykaiabgUcaRiabgMYiHlabgEGirlabew9aMjaacIcacaWH5bGaaiykaiaacYcacaGGOaGaaCiEaiabgkHiTiaahMhacaGGPaGaeyOkJepaaa@4D65@ egy olyan sík egyenlete, ami y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ -ban érinti a ϕ MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqy1dygaaa@37D2@ függvényt. A kalkulus terminológiájával L(x) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamitaiaacIcacaWH4bGaaiykaaaa@3935@ ϕ MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqy1dygaaa@37D2@ linearizálása az y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ pont körül, és a Bregman divergencia csupán a különbség egy függvény és annak egy közelítése között. A különböző Bregman divergenciákat úgy kapjuk, hogy különböző függvényeket választunk ϕ MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqy1dygaaa@37D2@ -nek.

2.22. Példa. Egy konkrét példát adunk négyzetes euklideszi távolságot használva, de csak egy dimenzióra szorítkozunk, hogy a matematikai hátteret egyszerűsítsük. Legyenek x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ valós számok, ϕ(t) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqy1dyMaaiikaiaadshacaGGPaaaaa@3A24@ pedig a ϕ(t)= t 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqy1dyMaaiikaiaadshacaGGPaGaeyypa0JaamiDa8aadaahaaWcbeqaa8qacaaIYaaaaaaa@3D2B@ valós függvény. Ebben az esetben a gradiens a deriválttá redukálódik, a belső szorzat pedig szorzássá. Konkrétan (2.12) egyenletből (2.13) egyenletet kapjuk.

D(x,y)= x 2 y 2 2y(xy)= (xy) 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiraiaacIcacaWG4bGaaiilaiaadMhacaGGPaGaeyypa0JaamiEa8aadaahaaWcbeqaa8qacaaIYaaaaOGaeyOeI0IaamyEa8aadaahaaWcbeqaa8qacaaIYaaaaOGaeyOeI0IaaGOmaiaadMhacaGGOaGaamiEaiabgkHiTiaadMhacaGGPaGaeyypa0JaaiikaiaadIhacqGHsislcaWG5bGaaiyka8aadaahaaWcbeqaa8qacaaIYaaaaaaa@4E20@ (2.13)

A 2.18. ábra mutatja a példához tartozó grafikont y=1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaiabg2da9iaaigdaaaa@38C9@ mellett. A Bregman divergencia x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ két értékéhez, x=2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaiabg2da9iaaikdaaaa@38C9@ -höz és x=3 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaiabg2da9iaaiodaaaa@38CA@ -hoz, van feltüntetve.

2.18. ábra - A Bregman divergencia szemléltetése

A Bregman divergencia szemléltetése

A szomszédság kiszámításának kérdései

Ebben a szakaszban néhány fontos kérdést tárgyalunk a szomszédsági mértékekkel kapcsolatban: (1) hogyan kezeljük azokat az eseteket, amikor az attribútumok skálája eltérő és/vagy az attribútumok korreláltak, (2) hogyan számoljuk a szomszédságot különböző típusú, például kvantitatív és kvalitatív attribútumokból álló, objektumok között, és (3) hogyan kezeljük a szomszédság kiszámítását, amikor az egyes attribútumoknak különböző súlyaik vannak, azaz amikor nem minden attribútum járul hozzá egyenlően az objektumok szomszédságához.

Standardizálás és korreláció távolsági mértékeknél

A távolsági mértékek egy fontos kérdése, hogy hogyan kezeljük azt a helyzetet, amikor az egyes attribútumok értékeinek különböző a terjedelme. (Ezt a helyzetet gyakran úgy írják le, hogy ``a változók skálája különbözik''.) Korábban az euklideszi távolságot használtuk, hogy emberek közötti távolságot mérjünk két attribútumra, a korra és a jövedelemre alapozva. Ha ezeket az attribútumokat nem standardizáljuk, akkor a két ember közötti távolságban túlsúlyba kerül a jövedelem.

Ehhez kapcsolódó kérdés, hogy hogyan számoljuk a távolságot, ha egyes attribútumok között korreláció figyelhető meg, esetleg az értékek terjedelmeinek különbsége mellett. Az euklideszi távolság egy általánosítása, a Mahalanobis távolság, hasznos abban az esetben, ha az attribútumok korreláltak, különböző az attribútumok értékeinek terjedelme (különböző a szórásuk), és az adatok eloszlása közelítőleg Gauss (normális). Speciálisan, az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ objektumok (vektorok) közötti Mahalanobis távolságot a következőképpen definiáljuk:

mahalanobis(x,y)=(xy) Σ 1 (xy) T , MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeyBaiaabggacaqGObGaaeyyaiaabYgacaqGHbGaaeOBaiaab+gacaqGIbGaaeyAaiaabohacaGGOaGaaCiEaiaacYcacaWH5bGaaiykaiabg2da9iaacIcacaWH4bGaeyOeI0IaaCyEaiaacMcacaWHJoWdamaaCaaaleqabaWdbiabgkHiTiaaigdaaaGccaGGOaGaaCiEaiabgkHiTiaahMhacaGGPaWdamaaCaaaleqabaWdbiaadsfaaaGccaGGSaaaaa@52DA@ (2.14)

ahol Σ 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaC4Od8aadaahaaWcbeqaa8qacqGHsislcaaIXaaaaaaa@392D@ az adatok kovarianciamátrixának az inverze. Megjegyezzük, hogy a Σ MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaC4Odaaa@3739@ kovarianciamátrix az a mátrix, amelynek ij MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaiaadQgaaaa@37E7@ -edik eleme az i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik és a j MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOAaaaa@36F9@ -edik attribútumok (2.11) egyenletben definiált kovarianciája.

2.23 Példa. A 2.19. ábrán 1000 pont látható, amelyek x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ attribútumainak korrelációja 0,6. Ha euklideszi távolsággal mérjük, akkor az ellipszis hosszabb tengelyének két szemközti végén elhelyezkedő két nagy pont távolsága 14,7, Mahalanobis távolság esetén azonban csak 6. A gyakorlatban a Mahalanobis távolság kiszámítása költséges, de érdemes lehet alkalmazni korrelált attribútumokkal rendelkező adatok esetén. Ha az attribútumok között viszonylag kismértékű korreláció van, terjedelmük viszont különböző, akkor elegendő a változók standardizálása is.

2.19. ábra - Kétdimenziós pontok halmaza. A két, nagy pöttyökkel jelzett pont közötti Mahalanobis távolság 6, míg euklideszi távolságuk 14,7.

Kétdimenziós pontok halmaza. A két, nagy pöttyökkel jelzett pont közötti Mahalanobis távolság 6, míg euklideszi távolságuk 14,7.

Heterogén attribútumok hasonlóságainak összekapcsolása

Az előző hasonlósági definíciók olyan megközelítéseken alapultak, amelyek feltételezték, hogy az összes attribútum egyforma típusú. Ha az attribútumok különböző típusúak, akkor egy általános megközelítésre van szükség. Egy egyszerű megközelítés, ha a 2.7. táblázat segítségével minden attribútumra külön-külön kiszámítjuk a hasonlóságot, majd ezeket összekapcsoljuk egy olyan módszerrel, amely egy 0 és 1 közötti hasonlóságot eredményez. A teljes hasonlóságot jellemzően az egyedi attribútumok hasonlóságainak átlagaként definiálják.

Sajnos ez a megközelítés nem működik jól, ha attribútumok közül néhány aszimmetrikus. Ha például minden attribútum aszimmetrikus bináris attribútum, akkor az előbb javasolt hasonlósági mérték az egyszerű egyezés együtthatóvá egyszerűsödik, egy olyan mértékké, amely nem megfelelő aszimmetrikus bináris attribútumok kezelésére. Ezt a problémát úgy orvosolhatjuk a legegyszerűbben, ha az aszimmetrikus attribútumokat kihagyjuk a hasonlóság kiszámításából, amennyiben az értékük 0 mindkét objektum esetén, amelyeknek a hasonlóságát számoljuk. Hasonló megközelítéssel a hiányzó értékek is jól kezelhetőek.

Összegezve, a 2.1. algoritmussal hatékonyan számítható ki az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ , különböző típusú attribútumokkal rendelkező objektumok teljes hasonlósága. Ez az eljárás könnyen módosítható úgy, hogy különbözőségekkel is működjön.

2.1. algoritmus Heterogén objektumok hasonlóságai

1: A k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Aaaaa@36FA@ -adik attribútumra kiszámítjuk az s k (x,y) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Ca8aadaWgaaWcbaWdbiaadUgaa8aabeaak8qacaGGOaGaaCiEaiaacYcacaWH5bGaaiykaaaa@3C72@ hasonlóságot a [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ tartományban

2: Definiáljuk a δ k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqiTdq2damaaBaaaleaapeGaam4AaaWdaeqaaaaa@38F9@ indikátorváltozót a k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Aaaaa@36FA@ -adik attribútumra a következőképpen:

δ k ={ 0, ha a k-adik attribútum aszimmetrikus és és mindkét objektumnál 0 értéket vesz fel, vagy ha a k-adik attribútumnak az egyik objektumban hiányzik az értéke, 1, egyébként MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqiTdq2damaaBaaaleaapeGaam4AaaWdaeqaaOWdbiabg2da9maaceaapaqaauaabaqaeeaaaaqaa8qacaaIWaGaaiilaiaabccacaqGObGaaeyyaiaabccacaqGHbGaaeiiaiaadUgacaqGTaGaaeyyaiaabsgacaqGPbGaae4AaiaabccacaqGHbGaaeiDaiaabshacaqGYbGaaeyAaiaabkgacaqG6dGaaeiDaiaabwhacaqGTbGaaeiiaiaabggacaqGZbGaaeOEaiaabMgacaqGTbGaaeyBaiaabwgacaqG0bGaaeOCaiaabMgacaqGRbGaaeyDaiaabohacaqGGaGaaey6aiaabohaa8aaeaqabeaapeGaaey6aiaabohacaqGGaGaaeyBaiaabMgacaqGUbGaaeizaiaabUgacaqGPdGaaeiDaiaabccacaqGVbGaaeOyaiaabQgacaqGLbGaae4AaiaabshacaqG1bGaaeyBaiaab6gacaqGHdGaaeiBaiaabccacaqGWaGaaeiiaiaabMoacaqGYbGaaeiDaiaabMoacaqGRbGaaeyzaiaabshacaqGGaGaaeODaiaabwgacaqGZbGaaeOEaiaabccacaqGMbGaaeyzaiaabYgacaqGSaGaaeiiaiaabAhacaqGHbGaae4zaiaabMhaaeaacaqGObGaaeyyaiaabccacaqGHbGaaeiiaiaadUgacaqGTaGaaeyyaiaabsgacaqGPbGaae4AaiaabccacaqGHbGaaeiDaiaabshacaqGYbGaaeyAaiaabkgacaqG6dGaaeiDaiaabwhacaqGTbGaaeOBaiaabggacaqGRbGaaeiiaiaabggacaqG6bGaaeiiaiaabwgacaqGNbGaaeyEaiaabMgacaqGRbGaaeiiaiaab+gacaqGIbGaaeOAaiaabwgacaqGRbGaaeiDaiaabwhacaqGTbGaaeOyaiaabggacaqGUbGaaeiiaiaabIgacaqGPbGaaey4aiaab6gacaqG5bGaaeOEaiaabMgacaqGRbGaaeiiaiaabggacaqG6bGaaeiiaiaabMoacaqGYbGaaeiDaiaabMoacaqGRbGaaeyzaiaabYcaaaWdaeaapeGaaGymaiaacYcacaqGGaGaaeyzaiaabEgacaqG5bGaaey6aiaabkgacaqGRbGaaey6aiaab6gacaqG0baapaqaaaaaa8qacaGL7baaaaa@D530@

3: Számítsuk ki a teljes hasonlóságot a két objektum között a következő képlettel:

hasonlóság(x,y)= k=1 n δ k s k (x,y) k=1 n δ k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaqGObGaaeyyaiaabohacaqGVbGaaeOBaiaabYgacaqGZdGaae4CaiaabgoacaqGNbGaaiikaiaahIhacaWHSaGaaCyEaiaacMcacqGH9aqpdaWcaaqaamaaqadabaGaeqiTdq2aaSbaaSqaaiaadUgaaeqaaOGaam4CamaaBaaaleaacaWGRbaabeaakiaacIcacaWH4bGaaCilaiaahMhacaGGPaaaleaacaWGRbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoaaOqaamaaqadabaGaeqiTdq2aaSbaaSqaaiaadUgaaeqaaaqaaiaadUgacqGH9aqpcaaIXaaabaGaamOBaaqdcqGHris5aaaaaaa@5838@ (2.11)

Súlyok használata

A korábbiakban többnyire az összes attribútumot egyenlőként kezeltük a szomszédság kiszámítása során. Ez nem előnyös, ha egyes attribútumok fontosabbak a szomszédság definíciójában, mint mások. Ezen helyzetek kezelésére módosíthatjuk a szomszédsági képleteket úgy, hogy minden attribútumot hozzájárulása szerint súlyozunk.

Ha a w k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Da8aadaWgaaWcbaWdbiaadUgaa8aabeaaaaa@3850@ súlyok összege 1, akkor (2.15) egyenlet a következőképpen alakul:

hasonlóság(x,y)= k=1 n w k δ k s k (x,y) k=1 n δ k . MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaqGObGaaeyyaiaabohacaqGVbGaaeOBaiaabYgacaqGZdGaae4CaiaabgoacaqGNbGaaiikaiaahIhacaWHSaGaaCyEaiaacMcacqGH9aqpdaWcaaqaamaaqadabaGaam4DamaaBaaaleaacaWGRbaabeaakiabes7aKnaaBaaaleaacaWGRbaabeaakiaadohadaWgaaWcbaGaam4AaaqabaGccaGGOaGaaCiEaiaahYcacaWH5bGaaiykaaWcbaGaam4Aaiabg2da9iaaigdaaeaacaWGUbaaniabggHiLdaakeaadaaeWaqaaiabes7aKnaaBaaaleaacaWGRbaabeaaaeaacaWGRbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoaaaGccaGGUaaaaa@5B16@ (2.16)

A Minkowski távolság definíciója is módosítható a következőképpen:

d(x,y)= ( k=1 n w k | x k y k | r ) 1/r . MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaWGKbGaaiikaiaahIhacaWHSaGaaCyEaiaacMcacqGH9aqpdaqadaqaamaaqahabaGaam4DamaaBaaaleaacaWGRbaabeaakmaaemaabaGaamiEamaaBaaaleaacaWGRbaabeaakiabgkHiTiaadMhadaWgaaWcbaGaam4AaaqabaaakiaawEa7caGLiWoadaahaaWcbeqaaiaadkhaaaaabaGaam4Aaiabg2da9iaaigdaaeaacaWGUbaaniabggHiLdaakiaawIcacaGLPaaadaahaaWcbeqaaiaaigdacaGGVaGaamOCaaaakiaac6caaaa@4E12@ (2.17)

A megfelelő szomszédsági mérték kiválasztása

A következőkben néhány olyan általános megfigyelést ismertetünk, amelyek segíthetnek. Először, a szomszédsági mérték típusának illeszkednie kell az adatok típusához. Sűrű, folytonos adatok számos típusánál gyakran használnak metrikus távolságmértéket, például euklideszi távolságot. A folytonos attribútumok szomszédságát leggyakrabban különbségek formájában fejezik ki, és a távolságmértékek jól definiált módot adnak ezen különbségek teljes szomszédsági mértékké való összekapcsolására. Bár az attribútumok skálája és fontossága különbözhet, ezeket a kérdéseket gyakran kezelni tudjuk a fentebb leírt módszerekkel.

Ritka adatokra, amelyek gyakran tartalmaznak aszimmetrikus attribútumokat, általában olyan hasonlósági mértékeket alkalmazunk, amelyek figyelmen kívül hagyják a 0-0 egyezéseket. Ez fogalmi szinten azt a tényt tükrözi, hogy két komplex objektum esetén a hasonlóság inkább a közös tulajdonságok számától függ, mint a mindkettőnél hiányzó tulajdonságok számától. Konkrétabban, ritka, aszimmetrikus adatoknál a legtöbb objektumnak csak néhány tulajdonságát írják le az attribútumok, és így ezek az objektumok nagyon hasonlóak azon tulajdonságok szempontjából, amelyekkel nem rendelkeznek. Az ilyen adatokhoz megfelelőek a koszinusz, Jaccard és kiterjesztett Jaccard mértékek.

Vannak olyan további jellemzői is az adatvektoroknak, melyeket figyelembe kell venni. Tegyük fel például, hogy idősorokat akarunk összehasonlítani. Ha az idősorok nagysága fontos (például minden idősor egy szervezet összes eladását mutatja a különböző évekre), akkor használhatjuk az euklideszi távolságot. Ha az idősorok különböző mennyiségeket (például vérnyomást és oxigénfogyasztást) ábrázolnak, akkor általában azt akarjuk meghatározni, hogy nagyságuk helyett az idősorok alakja egyforma-e. Ekkor megfelelőbb a korreláció, ami beépített normalizációt használ és kezeli a nagyság- és szintbeli különbségeket.

Egyes esetekben az adatok transzformálása vagy normalizálása azért fontos, hogy ezáltal egy megfelelő hasonlósági mértéket kapjunk, mivel az ilyen transzformációk nem mindig részei szomszédsági mértékeknek. Idősorokban például lehetnek olyan trendek vagy periodikus mintázatok, amelyek jelentős hatással vannak a hasonlóságra. Emellett a hasonlóság helyes kiszámításához szükséges lehet az időbeli eltérések figyelembevétele. Végül lehet, hogy két idősor csak meghatározott időintervallumokban hasonló. Erős kapcsolat figyelhető meg például a hőmérséklet és a földgázfelhasználás között, de csak a fűtési szezonban.

A gyakorlati megfontolások is fontosak lehetnek. Egyes esetekben egy adott területen már használatban van egy vagy több szomszédsági mérték, és így annak kérdését, hogy melyik szomszédsági mértéket használjuk, már korábban megválaszolták. Máskor előfordulhat, hogy a használt szoftvercsomag vagy klaszterező algoritmus drasztikusan lecsökkenti a lehetőségeinket. Ha a hatékonyság szempont, akkor olyan szomszédsági mértéket érdemes választanunk, aminek van olyan tulajdonsága, mint például a háromszög egyenlőtlenség, ami lecsökkenti a szomszédsági számítások számát. (Lásd 25. feladatot.)

Ha azonban a bevett gyakorlat vagy a gyakorlati szempontok nem írnak elő egy alternatívát, akkor a megfelelő szomszédsági mérték kiválasztása időigényes feladat lehet, amihez a szakterületi ismereteket és a mérték használatának céljait egyaránt alaposan át kell tekinteni. Szükséges lehet több különböző mérték kiértékelése, hogy lássuk, melyik adja azt az eredményt, aminek a legtöbb értelme van.

Irodalmi megjegyzések

Elengedhetetlen az elemzésre szánt adatok jellegének megértése, és alapvető szinten ez a méréselmélet tárgya. Az attribútumtípusok definiálásának főleg az volt az egyik indítóoka, hogy pontosan meg tudjuk határozni, az adatok mely fajtáira milyen statisztikai műveletek értelmezhetőek. A méréselméletet az alapján tekintettük át, ahogy azt kezdetben S. S. Stevens [4965] írta le klasszikus cikkében. (a 2.2. és a 2.3. táblázatok a Stevens [4964] által bemutatottakból származtak.) Bár ez a nézőpont a leggyakoribb, és ésszerűen könnyű megérteni és alkalmazni, a méréselmélet természetesen ennél jóval több. A méréselmélet alapjainak megbízható tárgyalása található a [4955, 4958, 4966] három kötetben. Érdeklődésre tarthat még számot Hand [4952] sokat felölelő cikke, ami a méréselmélettel és a statisztikával foglalkozik, és a terület más kutatóinak megjegyzései követik. Végül számos könyv és cikk található, amelyek a konkrét tudományos és műszaki területek mérési kérdéseit írják le.

Az adatminőség egy kiterjedt téma, ami minden tudományágon átível, ami adatokat használ. A pontosságot, torzítást, helyességet és a szignifikáns számjegyeket számos tudományos bevezető, műszaki és statisztikai tankönyv tárgyalja. Az adatminőség ``felhasználásra való alkalmasság'' nézőpontjának leírása részletesebben Redman [5042] könyvében található meg. Akiket érdekel az adatminőség, azokat érdekelheti az MIT Totális Adatminőség Menedzsment (Total Data Quality Management) programja is [4973, 4970]. Azonban azokat az ismereteket, melyek ahhoz szükségesek, hogy egy adott szakterület specifikus adatminőségi kérdéseit kezelni tudjuk, gyakran csak akkor tudjuk megszerezni, ha az adott területen dolgozó kutatók adatminőség-kezelési gyakorlatát megvizsgáljuk.

Az aggregálás nem olyan jól definiált, mint sok más előfeldolgozási feladat. Mindamellett, az aggregálás a közvetlen analitikus feldolgozás (OLAP -- On-Line Analytical Processing) adatbáziskezelési terület egyik fő módszere, amivel részletesebben 3. fejezetben foglalkozunk. A szimbolikus adatelemzés területén fontos munka például Bock és Diday [4945]. Ezen terület egyik célja, hogy a hagyományos rekord típusú adatokat olyan szimbolikus adatobjektumokban összesítse, amelyek attribútumai összetettebbek, mint a hagyományos attribútumok. Speciálisan ezen attribútumoknak lehetnek olyan értékeik, melyek értékhalmazok (kategóriák), intervallumok, vagy súlyokkal rendelkező értékhalmazok (hisztogramok). A szimbolikus adatelemzés egy másik célkitűzése a klaszterezés, osztályozás és más adatelemzési módok elvégzésének lehetővé tétele olyan adatokon, amelyek szimbolikus adatobjektumokból állnak.

A mintavétel egy olyan téma, amit kimerítően tanulmányozott a statisztika és más vele összefüggő területek. Sok bevezető statisztikai könyv, mint például Lindgren [4957], tárgyalja a mintavételezést, de egész könyveket is szenteltek a témának, mint például Cochran klasszikus műve [4947]. Az adatbányászat számára történő mintavételezés egy áttekintését adja Gu és Liu [4950], míg az adatbázisok számára történő mintavételezés egy áttekintése Olken és Rotem [4959]. Számos más adatbányászati és adatbázisokkal kapcsolatos mintavételezési hivatkozás érdekes lehet, beleértve a Palmer és Faloutsos [4961], Provost és társai [4963], Toivoen [4967], valamint Zaki és társai [4971] cikkeket.

A statisztikában a dimenzió csökkentésének hagyományos módszerei a többdimenziós skálázás (MDS -- Multidimensional Scaling) (Borg és Groenen [4946], Kruskal és Uslaner [5026]) valamint a főkomponens analízis (PCA -- Principal Component Analysis) (Jolliffe [5016]), ami hasonló a szinguláris érték felbontáshoz (SVD -- Single Value Decomposition) (Demmel [4948]). Részletesebben a B. függelékben foglalkozunk a dimenzió csökkentésével.

A diszkretizálás az a téma, amelyet nagymértékben kutattak az adatbányászatban. Néhány osztályozó algoritmus csak kategorikus adatokkal működik, az asszociációs elemzéshez pedig bináris adatokra van szükség, így jelentős a motiváció annak kiderítésére, hogy hogyan lehet folytonos attribútumokat a legjobban binarizálni és diszkretizálni. Az asszociációs elemzéssel kapcsolatban Srikant és Agrawal [5050] munkájára hivatkozunk, míg az osztályozás területén végzett diszkretizálás témájában hasznos megemlíteni többek között Dougherty és társai [4984], Elomaa és Rousu [4986], Fayyad és Irani [4992], valamint Hussein és társai [5011] munkáit.

A jellemzők kiválasztásának témakörében szintén igen kiterjedt kutatások folytak az adatbányászatban. Ezt a témát széleskörűen lefedi Molina és társai áttekintése [5035] és Liu és Motada két könyve [4972, 5029]. Ezen túl többek között Blum és Langley [4979], Kohavi és John [5024] valamint Liu és társai [5028] cikkei is hasznosak lehetnek.

A jellemzők transzformációjának témájában nehéz hivatkozásokat adni, mivel a módszerek szakterületenként változnak. Sok statisztikai könyvben foglalkoznak a transzformációkkal, de ez általában csak egy konkrét célra használt transzformációkra korlátozódik, mint például egy változó normalitásának biztosítása, vagy a változók egyenlő szórásának biztosítása. Két művet ajánlunk: Osborne [4960] és Tukey [4968] munkáját.

Bár tárgyaltunk néhányat a leggyakrabban használt távolsági és hasonlósági mértékek közül, több száz ilyen mérték létezik, és mindig jönnek létre újak. Mint ahogy sok más témánál ebben a fejezetben, sok ezek közül a mértékek közül egy konkrét területhez tartozik; például az idősorok területén lásd Kalpakis és társai [5063] valamint Keogh és Pazzani [5064] cikkeit. A klaszterezéssel foglalkozó könyvek adják a legjobb általános tárgyalást. Különösen ajánljuk a következő könyveket: Anderberg [4941], Jain és Dubes [5012], Kaufmann és Rousseeuw [5022], valamint Sneath és Sokal [5048].

Feladatok

1. A 2. fejezet kezdeti példájában a statisztikus azt mondja: ``Igen, a 2. és a 3. mező gyakorlatilag ugyanaz.'' Meg tudja állapítani a mutatott minta három sorából, hogy miért mondja ezt?

2. Osztályozza a következő attribútumokat, mint bináris, diszkrét vagy folytonos. Szintén osztályozza őket mint kvalitatív (névleges vagy sorrendi) illetve kvantitatív (intervallum vagy hányados). Bizonyos esetekben több értelmezés is lehetséges, ezért röviden indokolja, ha úgy gondolja, hogy kétértelműség áll fenn.

Példa: életkor években. Válasz: diszkrét, kvantitatív, hányados.

  1. Idő délelőtt és délután szerint.

  2. Egy fényérzékelővel mért világosság.

  3. Emberi ítélet alapján mért világosság.

  4. Szögek 0 és 360 fok között, melyeket mértünk.

  5. Az olimpián odaítélt bronz, ezüst és aranyérmek.

  6. Tengerszint feletti magasság.

  7. A betegek száma egy kórházban.

  8. Könyvek ISBN számai. (Nézzen utána a formátumnak a weben.)

  9. Fényáteresztési képesség a következő értékekkel: átlátszatlan, áttetsző, átlátszó.

  10. Katonai rang.

  11. Az egyetemi campus központjától mért távolság.

  12. Egy anyag sűrűsége gramm per köbméterben.

  13. Kabátok ruhatári száma. (Ha részt veszünk egy rendezvényen, ott gyakran le lehet adni a kabátunkat valakinek, aki cserébe egy számot ad, amiért távozáskor visszakapjuk a kabátunkat.)

3. Megkeresi egy helyi cég marketingigazgatója, aki úgy véli, hogy tökéletes módot agyalt ki a vásárlók megelégedettségének mérésére. A következőképpen magyarázza el a tervét: ``Olyan egyszerű, hogy el sem hiszem, hogy korábban ez senkinek sem jutott az eszébe. Csak minden termékhez nyomon követem a vele kapcsolatban beérkezett vásárlói panaszokat. Azt olvastam egy adatbányászati könyvben, hogy a darabszámok hányados típusú attribútumok, szóval az én mértékem a termékekkel való megelégedettségre hányados típusú kell, hogy legyen. De mikor az új vásárlói megelégedettségi mértékemre alapozva értékeltem a termékeket, és megmutattam a főnökömnek, azt mondta, hogy amúgy is nyilvánvaló eredményeket kaptam, és hogy a mértékem nem ér semmit. Szerintem csak mérges volt, mert a legjobban fogyó termékünknek volt a legrosszabb megelégedettségi mutatója, hiszen ahhoz érkezett a legtöbb panasz. Segítenél, hogy kiigazítsam?''

  1. Kinek van igaza, a marketingigazgatónak vagy a főnökének? Ha azt válaszolta, hogy a főnökének, akkor mit tenne, hogy kijavítsa a megelégedettségi mértéket?

  2. Mit tud elmondani az eredeti termék megelégedettségi attribútumának a típusáról?

4. Pár hónappal később ismét felkeresi ugyanaz a marketingigazgató, mint 3. feladatban. Ezúttal egy jobb módszert dolgozott ki annak mérésére, hogy egy vásárló mennyire preferál egy terméket más hasonló termékekkel szemben. A következőképpen fejti ki: ``Amikor új termékeket fejlesztünk, jellemzően számos változatot hozunk létre, és kiértékeljük, hogy a vásárlók melyiket részesítik előnyben. Általában úgy járunk el, hogy a tesztalanyoknak egyszerre adjuk oda az összes változatot, és megkérjük őket, hogy preferenciájuk szerint rendezzék őket sorba. Azonban a tesztalanyaink nagyon határozatlanok, különösen ha kettőnél több termékről van szó. Következésképp a tesztelés örökké tart. Azt javasoltam, hogy az összehasonlításokat párokban végezzük el, és aztán ezeket használjuk fel a sorrend felállítására. Így, ha van három termékváltozatunk, akkor a vevőkkel az 1. és a 2., aztán a 2. és a 3., végül a 3. és az 1. változatot hasonlíttatjuk össze. Az én új eljárásommal a teszt időtartama a régi módszer harmada, de a teszteket lefolytató kollégák arra panaszkodnak, hogy nem tudnak következetes sorrendet felállítani az eredmények alapján. A főnököm meg várja a legújabb termékértékeléseket, mégpedig tegnapra. Az sem árt, ha megemlítem, hogy ő volt az, aki kitalálta a régebbi kiértékelési módszert. Tudsz nekem segíteni ebben?''

  1. Bajban van-e a marketingigazgató? Sorba rendezhetőek-e a megközelítésével a termékváltozatok a vásárlói megelégedettség szerint? Indokolja válaszát!

  2. Van-e mód a marketingigazgató módszerének javítására? Mit tud elmondani általánosságban arról, ha páronkénti hasonlításokra alapozva akarunk felállítani egy sorrendi mérési skálát?

  3. Az eredeti termékértékelési rendszerben minden termékváltozat végső rangsorolása úgy áll elő, hogy az összes tesztalany válaszainak átlagát vesszük. Fejtse ki, hogy Ön szerint ez a megközelítés megfelelő-e. Milyen más megközelítésekkel élhetnénk?

5. Meg tud-e adni olyan helyzetet, ahol az azonosító számok használhatóak előrejelzésre?

6. Egy iskolapszichológus asszociációs elemzéssel szeretne teszteredményeket elemezni. A teszt 100 darab, egyenként négy lehetséges válasszal rendelkező kérdésből áll.

  1. Hogyan alakítaná át ezeket az adatokat, hogy alkalmazható legyen rájuk az asszociációs elemzés?

  2. Konkrétan milyen típusú, és hány darab attribútumot használna?

7. A következő mennyiségek közül valószínűleg melyik mutat nagyobb időbeli autokorrelációt: a napi csapadék vagy a napi hőmérséklet? Miért?

8. Fejtse ki, hogy a dokumentum-kifejezés mátrix adatszerkezetben miért szerepelnek aszimmetrikus diszkrét vagy aszimmetrikus folytonos jellemzők.

9. Sok tudományág hagyatkozik megfigyelésekre a megtervezett kísérletek helyett (vagy mellett). Hasonlítsa össze a megfigyeléseken alapuló tudományok területén felmerülő adatminőségi problémákat a kísérleti tudományok és az adatbányászat területén felmerülőkkel.

10. Fejtse ki a különbséget a pontosság mérése illetve az egyszeres és kétszeres pontosság kifejezések között, amelyeket az informatikában használnak, jellemzően a lebegőpontos számok 32 illetve 64 biten történő ábrázolásánál.

11. Nevezzen meg legalább két előnyt, amelyet a szöveges fájlokban történő adattárolás nyújt a bináris formátummal szemben.

12. Tegyen különbséget a zaj és a kiugró értékek között. Feltétlenül vegye számba a következő kérdéseket.

  1. Lehet a zaj valamikor érdekes vagy kívánatos? És a kiugró értékek?

  2. Lehetnek-e a zajobjektumok kiugróak?

  3. A zajobjektumok mindig kiugró értékek?

  4. A kiugró adatok mindig zajt jelentenek?

  5. A zaj hatására válhat-e egy átlagos adatból szokatlan adat? És fordítva?

13. Tekintsük azt a feladatot, hogy egy adatobjektum K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ legközelebbi szomszédját keressük. Egy programozó 13. algoritmust dolgozta ki a feladatra.

2.2. algoritmus. A K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ legközelebbi szomszédot kereső algoritmus

1: for i=1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaiabg2da9iaaigdaaaa@38B9@ to adatobjektumok száma MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyyaiaadsgacaWGHbGaamiDaiaad+gacaWGIbGaamOAaiaadwgacaWGRbGaamiDaiaadwhacaWGTbGaam4BaiaadUgacaqGGaGaam4CaiaadQhacaWGHdGaamyBaiaadggaaaa@48FD@

2: Mérjük meg az i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik objektum távolságát az összes többi objektumtól

3: Rendezzük ezeket a távolságokat csökkenő sorrendbe (Kövessük nyomon, hogy melyik távolság melyik objektumhoz tartozik)

4: return a rendezett lista első K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ távolságához tartozó objektumok

5: end for

  1. Írja le azokat a problémákat, amelyek felmerülhetnek ezzel az algoritmussal kapcsolatban, ha az adatállományban egyes objektumok többször szerepelnek. Tegyük fel, hogy a távolságfüggvény az egyező objektumokra csak 0 értékű távolságot ad vissza.

  2. Hogyan oldaná meg a problémát?

14. Egy ázsiai elefántcsorda tagjait a következő attribútumokkal mérjük: súly, magasság, agyarak hossza, ormány hossza és fülek területe. Ezekre a mérésekre alapozva a 2.4. fejezet szomszédsági mértékei közül melyiket használná az elefántok összehasonlítására vagy csoportosítására? Igazolja válaszát és fejtse ki, ha bármilyen speciális körülmény merül fel.

15. Adott egy m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ objektumból álló halmaz, amelyet K MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4saaaa@36DA@ csoportra osztunk, ahol az i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik csoport mérete m i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBa8aadaWgaaWcbaWdbiaadMgaa8aabeaaaaa@3844@ . Ha az a célunk, hogy egy n<m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaiabgYda8iaad2gaaaa@38F3@ nagyságú mintát kapjunk, akkor mi a különbség a következő két mintavételi módszer között? (Feltételezzük, hogy a mintavétel visszatevéses.)

  1. Véletlenszerűen kiválasztunk n* m i /m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOBaiaabQcacaWGTbWdamaaBaaaleaapeGaamyAaaWdaeqaaOWdbiaac+cacaWGTbaaaa@3BA3@ elemet minden csoportból.

  2. Véletlenszerűen kiválasztunk n elemet az adatállományból arra való tekintet nélkül, hogy az objektumok melyik csoportba tartoznak.

16. Tekintsünk egy dokumentum-kifejezés mátrixot, ahol t f ij MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiDaiaadAgapaWaaSbaaSqaa8qacaWGPbGaamOAaaWdaeqaaaaa@3A25@ az i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik szó (kifejezés) előfordulási gyakorisága a j MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOAaaaa@36F9@ -edik dokumentumban, m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ pedig a dokumentumok száma. Tekintsük a

t f ij '=t f ij *log m d f i , MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiDaiaadAgapaWaaSbaaSqaa8qacaWGPbGaamOAaaWdaeqaaOWdbiaabEcacqGH9aqpcaWG0bGaamOza8aadaWgaaWcbaWdbiaadMgacaWGQbaapaqabaGcpeGaaeOkaiaabYgacaqGVbGaae4zamaalaaapaqaa8qacaWGTbaapaqaa8qacaWGKbGaamOza8aadaWgaaWcbaWdbiaadMgaa8aabeaaaaGcpeGaaiilaaaa@48C2@ (2.18)

egyenlettel megadott változó transzformációt, ahol d f i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaadAgapaWaaSbaaSqaa8qacaWGPbaapaqabaaaaa@3926@ azon dokumentumok száma, amelyekben előfordul az i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik kifejezés, a kifejezés úgynevezett dokumentum gyakorisága. Ezt a transzformációt inverz dokumentum gyakorisági transzformációnak nevezzük.

  1. Mi ennek a transzformációnak a hatása, ha egy kifejezés csak egy dokumentumban fordul elő? És ha minden dokumentumban?

  2. Mi lehet ezen transzformáció célja?

17. Tegyük fel, hogy egy x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ hányados attribútumra a négyzetgyök transzformációt alkalmazzuk, és így megkapjuk az x * MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaahaaWcbeqaa8qacaqGQaaaaaaa@3800@ új attribútumot. Elemzéseink során azonosítunk egy (a,b) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaiikaiaadggacaGGSaGaamOyaiaacMcaaaa@39E0@ intervallumot, melyben az x * MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaahaaWcbeqaa8qacaqGQaaaaaaa@3800@ lineáris kapcsolatban áll egy másik, y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ attribútummal.

  1. Mi lesz az ennek megfelelő (a,b) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaiikaiaadggacaGGSaGaamOyaiaacMcaaaa@39E0@ intervallum az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ attribútumra nézve?

  2. Adjon meg egy egyenletet, amely megadja y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyEaaaa@3708@ és x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ kapcsolatát.

18. Ebben a feladatban néhány hasonlósági és távolsági mértéket hasonlítunk össze.

(a) Bináris attribútumokra az L 1 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiaaigdaa8aabeaaaaa@37F0@ távolság a Hamming távolságnak felel meg; azaz két bináris vektor eltérő bitjeinek a száma. A Jaccard hasonlóság két bináris vektor hasonlósági mértéke. Számítsa ki a Hamming távolságot és a Jaccard hasonlóságot a következő két bináris vektor között.

x=0101010001 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabg2da9iaaicdacaaIXaGaaGimaiaaigdacaaIWaGaaGymaiaaicdacaaIWaGaaGimaiaaigdaaaa@3F59@

y=0100011000 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaaicdacaaIXaGaaGimaiaaicdacaaIWaGaaGymaiaaigdacaaIWaGaaGimaiaaicdaaaa@3F59@

(b) Melyik megközelítés, a Jaccard hasonlóság vagy a Hamming távolság, hasonlít jobban az egyszerű egyezés együtthatóhoz, és melyik hasonlít jobban a koszinusz mértékhez? Válaszát indokolja. (Megjegyzés: A Hamming mérték egy távolság, míg a másik három mérték hasonlóság, de ne engedje, hogy ez megzavarja.)

(c) Tegyük fel, hogy aszerint hasonlítunk össze két különböző fajhoz tartozó élőlényt, hogy azoknak hány génje egyezik meg. Írja le, hogy melyik mérték, a Hamming vagy a Jaccard, a megfelelőbb-e a két élőlény génállományának összehasonlítására. Válaszát indokolja. (Tegyük fel, hogy minden állatot egy olyan bináris vektorral ábrázolunk, amelyben minden attribútum értéke 1, ha a hozzá tartozó konkrét gén jelen van az élőlényben, és 0 egyébként.)

(d) Ha két azonos fajba tartozó élőlény, például két emberi lény génállományát akarjuk összehasonlítani, akkor a Hamming távolságot, a Jaccard együtthatót, vagy valamilyen más hasonlósági vagy távolságmértéket használna? Válaszát indokolja. (Megjegyezzük, hogy két emberi lény génjeinek több mint 99,9%-a megegyezik.)

19. A következő x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ vektorokra számolja ki a mellettük feltüntetett hasonlósági és távolságmértékeket.

  1. (a) x=(1,1,1,1) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabg2da9iaacIcacaaIXaGaaiilaiaaigdacaGGSaGaaGymaiaacYcacaaIXaGaaiykaaaa@3E66@ , y=(2,2,2,2) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaacIcacaaIYaGaaiilaiaaikdacaGGSaGaaGOmaiaacYcacaaIYaGaaiykaaaa@3E6B@ : koszinusz, korreláció, euklideszi távolság

  2. (b) x=(0,1,0,1) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeiEaiabg2da9iaacIcacaaIWaGaaiilaiaaigdacaGGSaGaaGimaiaacYcacaaIXaGaaiykaaaa@3E5E@ , y=(1,0,1,0) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaacIcacaaIXaGaaiilaiaaicdacaGGSaGaaGymaiaacYcacaaIWaGaaiykaaaa@3E65@ : koszinusz, korreláció, euklideszi távolság, Jaccard hasonlóság

  3. (c) x=(0,1,0,1) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabg2da9iaacIcacaaIWaGaaiilaiabgkHiTiaaigdacaGGSaGaaGimaiaacYcacaaIXaGaaiykaaaa@3F51@ , y=(1,0,1,0) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaacIcacaaIXaGaaiilaiaaicdacaGGSaGaeyOeI0IaaGymaiaacYcacaaIWaGaaiykaaaa@3F52@ : koszinusz, korreláció, euklideszi távolság

  4. (d) x=(1,1,0,1,0,1) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabg2da9iaacIcacaaIXaGaaiilaiaaigdacaGGSaGaaGimaiaacYcacaaIXaGaaiilaiaaicdacaGGSaGaaGymaiaacMcaaaa@413A@ , y=(1,1,1,0,0,1) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaacIcacaaIXaGaaiilaiaaigdacaGGSaGaaGymaiaacYcacaaIWaGaaiilaiaaicdacaGGSaGaaGymaiaacMcaaaa@413B@ : koszinusz, korreláció, Jaccard hasonlóság

  5. (e) x=(2,1,0,2,0,3) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabg2da9iaacIcacaaIYaGaaiilaiabgkHiTiaaigdacaGGSaGaaGimaiaacYcacaaIYaGaaiilaiaaicdacaGGSaGaeyOeI0IaaG4maiaacMcaaaa@4318@ , y=(1,1,1,0,0,1) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabg2da9iaacIcacqGHsislcaaIXaGaaiilaiaaigdacaGGSaGaeyOeI0IaaGymaiaacYcacaaIWaGaaiilaiaaicdacaGGSaGaeyOeI0IaaGymaiaacMcaaaa@4402@ : koszinusz, korreláció

20. Ebben a feladatban tovább vizsgáljuk a koszinusz és a korreláció mértékeket.

  1. Mekkora a lehetséges értékek terjedelme a koszinusz mérték esetén?

  2. Ha két objektum koszinusz mértéke 1, akkor megegyezőek-e? Válaszát indokolja.

  3. Milyen kapcsolatban van a koszinusz mérték a korrelációval, ha egyáltalán van ilyen kapcsolat? (Útmutatás: Tekintsen statisztikai mértékeket, mint például az átlag vagy a szórás, olyan esetekre, ahol a koszinusz és a korreláció megegyeznek illetve különbözőek.)

  4. A 2.20. (a) ábrán a koszinusz mérték és az euklideszi távolság közötti kapcsolat látható 100 000 véletlenszerűen generált pontra, melyek úgy lettek normalizálva, hogy L 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiaaikdaa8aabeaaaaa@37F1@ hosszuk 1 legyen. Mit tud általánosságban megfigyelni az euklideszi távolság és a koszinusz hasonlóság közötti kapcsolatról abban az esetben, ha a vektorok L 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamita8aadaWgaaWcbaWdbiaaikdaa8aabeaaaaa@37F1@ normája 1?

  5. A 2.20. (b) ábrán a korreláció és az euklideszi távolság közötti kapcsolat látható 100 000 véletlenszerűen generált pontra, melyek úgy lettek standardizálva, hogy átlaguk 0, szórásuk pedig 1 legyen. Mit tud általánosságban megfigyelni az euklideszi távolság és a korreláció közötti kapcsolatról abban az esetben, ha a vektorok úgy lettek standardizálva, hogy átlaguk 0, szórásuk pedig 1?

  6. Vezesse le a matematikai kapcsolatot a koszinusz hasonlóság és az euklideszi távolság között, ha minden adatobjektum L 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeita8aadaWgaaWcbaWdbiaaikdaa8aabeaaaaa@37EF@ hossza 1.

  7. Vezesse le a matematikai kapcsolatot a korreláció és az euklideszi távolság között, ha minden adatpont úgy lett standardizálva, hogy kivontuk belőle az átlagot és elosztottuk a szórással.

2.20. ábra - Grafikonok a 20. feladathoz (a) Az euklideszi távolság és a koszinusz mérték kapcsolata (b) Az euklideszi távolság és a korreláció kapcsolata

Grafikonok a 20. feladathoz (a) Az euklideszi távolság és a koszinusz mérték kapcsolata (b) Az euklideszi távolság és a korreláció kapcsolata

21. Mutassa meg, hogy a

d(A,B)= méret (AB)+ méret (BA) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWGbbGaaiilaiaadkeacaGGPaGaeyypa0JaaeiOaiaad2gacaqGPdGaamOCaiaadwgacaWG0bGaaeiOaiaacIcacaWGbbGaeyOeI0IaamOqaiaacMcacqGHRaWkcaqGGcGaamyBaiaabMoacaWGYbGaamyzaiaadshacaqGGcGaaiikaiaadkeacqGHsislcaWGbbGaaiykaaaa@5313@ (2.19)

egyenlettel megadott különbségi metrika kielégíti list:metric_propoerties. oldalon megadott metrika axiómákat, ahol A MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyqaaaa@36D0@ és B MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOqaaaa@36D1@ halmazok, AB MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyqaiabgkHiTiaadkeaaaa@3884@ pedig a halmazok különbsége.

22. Fejtse ki, hogyan tudná a [1;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiabgkHiTiaaigdacaGG7aGaaGymaiaac2faaaa@3AEC@ intervallumba eső korreláció értékeket leképezni a [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ intervallumra. Megjegyezzük, hogy a transzformációtípus, amelyet használ, függhet attól az alkalmazástól, amely a fejünkben van. Így tekintsünk két alkalmazást: idősorok klaszterezését és az egyik idősor viselkedésének előrejelzését úgy, hogy adott a másik.

23. Legyen adott egy hasonlósági mérték, amely a [0;1] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaaGymaiaac2faaaa@39FE@ intervallumból veszi fel értékeit. Adjon meg két módot arra, hogy ezt a hasonlósági értéket átalakítsuk egy, a [0;] MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4waiaaicdacaGG7aGaeqOhIuQaaiyxaaaa@3AB2@ intervallumba eső különbözőségi értékké.

24. A szomszédságot jellemzően két objektum között definiáljuk.

  1. Adjon meg két módot, amelyekkel a szomszédságot objektumok egy csoportjára definiálhatja.

  2. Hogyan definiálná a távolságot két ponthalmaz között egy euklideszi térben?

  3. Hogyan definiálná a szomszédságot adatobjektumok két halmaza között? (Az adatobjektumokról nem feltételezünk semmit, kivéve azt, hogy a szomszédsági mérték bármely két objektum között definiált.)

25. Adott pontok egy S MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4uaaaa@36E2@ halmaza az euklideszi térben, továbbá az S MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4uaaaa@36E2@ halmaz minden pontjának távolsága egy x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ ponttól. (Nem fontos, hogy xS MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaiabgIGiolaadofaaaa@3967@ fennáll-e.)

  1. Ha az a cél, hogy találjuk meg az összes pontot az y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ pont egy meghatározott ε MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqyTdugaaa@37B1@ környezetében, ahol yx MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaiabgcMi5kaahIhaaaa@39D4@ , fejtse ki, hogyan tudná felhasználni a háromszög egyenlőtlenséget és a már kiszámított x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ -től mért távolságokat, hogy potenciálisan csökkentse a szükséges távolság számítások számát? Útmutatás: A háromszög egyenlőtlenség d(x,z)d(x,y)+d(y,x) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWH4bGaaiilaiaahQhacaGGPaGaeyizImQaamizaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaey4kaSIaamizaiaacIcacaWH5bGaaiilaiaahIhacaGGPaaaaa@4781@ alakból átírható d(x,y)d(x,z)d(y,z) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaeyyzImRaamizaiaacIcacaWH4bGaaiilaiaahQhacaGGPaGaeyOeI0IaamizaiaacIcacaWH5bGaaiilaiaahQhacaGGPaaaaa@479F@ alakba.

  2. Általánosságban x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ távolsága hogyan befolyásolhatja a távolsági számítások számát?

  3. Tegyük fel, hogy az eredeti adatállományból kinyerhető a pontok egy kis S' MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4uaiaabEcaaaa@378C@ halmaza úgy, hogy az adatállomány minden pontja az S' MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4uaiaabEcaaaa@378C@ legalább egy pontjához egy meghatározott ε MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqyTdugaaa@37B1@ távolságnál közelebb van, és S' MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4uaiaabEcaaaa@378C@ -re a páronkénti távolsági mátrix is rendelkezésre áll. Adjon meg egy olyan módszert, amely ezen információk felhasználásával minimális távolság számítással kiszámítja az összes olyan pont halmazát, amelyek az adatállomány egy meghatározott pontjához egy β MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaeqOSdigaaa@37AB@ távolságnál közelebb vannak.

26. Mutassa meg, hogy 1 mínusz a Jaccard hasonlóság egy olyan távolság mértéket ad meg x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ adatobjektumok között, ami kielégíti list:metric_propoerties. oldalon megadott metrika axiómákat. Speciálisan: d(x,y)=1J(x,y) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaeyypa0JaaGymaiabgkHiTiaabQeacaGGOaGaaCiEaiaacYcacaWH5bGaaiykaaaa@4286@ .

27. Mutassa meg, hogy két adatvektor, x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCiEaaaa@370B@ és y MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaCyEaaaa@370C@ , által bezárt szöggel definiált távolság mérték kielégíti list:metric_propoerties. oldalon megadott metrika axiómákat. Speciálisan: d(x,y)=arccos(cos(x,y)) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamizaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaeyypa0JaaeyyaiaabkhacaqGJbGaae4yaiaab+gacaqGZbGaaiikaiaabogacaqGVbGaae4CaiaacIcacaWH4bGaaiilaiaahMhacaGGPaGaaiykaaaa@49C5@ .

28. Magyarázza meg, hogy gyakran miért könnyebb két attribútum szomszédságát kiszámítani, mint két objektum hasonlóságát.

3. fejezet - Adatfeltárás

Az előző fejezetben magasszintű adatokkal foglalkoztunk, amelyek a tudásfeltárás folyamatában kapnak fontos szerepet. Ez a fejezet az adatfeltárásba (data exploration) nyújt bevezetést, amely egy az adatokon végzett elsődleges vizsgálat, azok sajátos jellemzőinek megértése céljából. Az adatfeltárás segítséget nyújthat a megfelelő előfeldolgozás és adatelemző módszerek kiválasztásához. Ezenkívül alkalmas a tipikusan az adatbányászat által megválaszolható kérdések megfogalmazására is. Az adatok vizuális vizsgálatával például különböző mintázatokra bukkanhatunk. Az adatfeltárás során használt egyes módszerek, mint például a vizualizáció, segíthetnek az adatbányászati eredmények megértésében, értelmezésében is.

A fejezet három nagy témát ölel fel: az összegző statisztikákat, a vizualizációt és a közvetlen analitikus feldolgozást (OLAP -- On-Line Analytical Processing). Az összegző statisztikák[1], például értékek egy halmazából számolt átlag és szórás, illetve a vizualizációs módszerek, mint a hisztogramok és pontdiagramok, az adatfeltárás támogatására széleskörben használatos, általánosan elfogadott módszerek. A sokkal újabb keletű OLAP értékek többdimenziós vektorainak feltárását segítő módszerek együtteséből áll. Az OLAP-hoz tartozó elemző függvények különböző módon hoznak létre összegző adattáblákat többdimenziós adathalmazokból. Ezek a módszerek magukban foglalják az adatok aggregálását különböző dimenziók vagy attribútumértékek mentén. Ha például eladási információk állnak rendelkezésre termék, hely, időpont szerint csoportosítva, az OLAP-eszközöket használva olyan összegzés készíthető, amely leírja az eladási aktivitást egy adott helyen, hónap és termék szerint kategorizálva.

Az ebben a fejezetben tárgyalt témák nagymértékben egybeesnek a feltáró adatelemzésként (EDA -- Exploratory Data Analysis) ismert tudományterülettel, amelyet a kiváló statisztikus, John Tukey alapozott meg az 1970-es években. A fejezet, az EDA-hoz hasonlóan, nagy hangsúlyt fektet a vizualizációra. Az EDA-val ellentétben a fejezet nem tartalmaz viszont olyan témaköröket, mint a klaszterezés vagy a rendellenesség-észlelés. Ennek két oka van. Elsősorban, az adatbányászati szemléletben a feltáró adatelemzési módszereket öncélúan alkalmazzuk, ezzel szemben a statisztikában, melyből az EDA is ered, a végcél hipotézisek vizsgálata. Másodsorban, mind a klaszterezés, mind a rendellenesség-észlelés nagy tudományterület, amelyeknek alapos tárgyalása teljes, önálló fejezeteket igényel. Így a klaszterezés 8. illetve 9. fejezetben kerül bemutatásra, míg a rendellenesség-észleléssel 10. fejezet foglalkozik.

Az Írisz-adathalmaz

A következőkben gyakran hivatkozunk majd az Írisz-adathalmazra, amely az Irvine-beli Kaliforniai Egyetem (UCI -- University of California at Irvine) Gépi Tanulás Tárházában (Machine Learning Repository) lelhető fel. Ez 150 íriszvirágról (nőszirom) tartalmaz információt, 50 egyedről mindhárom íriszfajtából. Ez a három fajta a nőszirom (Setosa), a foltos nőszirom (Versicolor) és a virginiai nőszirom (Virginica). Minden egyes virágot öt attribútum ír le:

  1. a csészelevél hossza centiméterben mérve,

  2. a csészelevél szélessége centiméterben mérve,

  3. a sziromlevél hossza centiméterben mérve,

  4. a sziromlevél szélessége centiméterben mérve,

  5. az osztály (Setosa, Versicolor, Virginica).

A csészelevelek a növény külső szerkezetéhez tartoznak, amelyek a sebezhetőbb részeket védik, mint például a sziromleveleket. A legtöbb növénynél a csészelevelek zöldek, és csupán a sziromlevelek színesek. A nőszirom esetében azonban mindkettő színes. Ahogy a 3.1. ábrán látható, az Iris Virginicáról készült kép is mutatja, a nőszirom csészelevelei nagyobbak a sziromleveleknél és lefelé konyulnak, míg a sziromlevelek függőlegesen állnak.

3.1. ábra - Iris Virginica. Robert H. Mohlenbrock, Amerikai Egyesült Államok Mezőgazdasági Részlege, A Természeti Erőforrások Megőrzéséért, Növény-adatbázis (USDA-NRCS PLANTS Db.), 1995. Az északkeleti lápvidék növényvilága: Hivatalos útmutatás a fajok ültetéséhez. Északkeleti Nemzeti Technikai Központ, Chester, Pennsylvania, USA. A háttér eltávolítva.

Iris Virginica. Robert H. Mohlenbrock, Amerikai Egyesült Államok Mezőgazdasági Részlege, A Természeti Erőforrások Megőrzéséért, Növény-adatbázis (USDA-NRCS PLANTS Db.), 1995. Az északkeleti lápvidék növényvilága: Hivatalos útmutatás a fajok ültetéséhez. Északkeleti Nemzeti Technikai Központ, Chester, Pennsylvania, USA. A háttér eltávolítva.

Összegző statisztikák

Az összegző statisztikák olyan mennyiségek, mint például az átlag vagy a szórás, amelyek egyetlen számmal, vagy számok egy kis halmazával ragadják meg az esetlegesen nagy kiterjedésű értékhalmazok különböző jellemzőinek lényegét. Az összegző statisztikákra a mindennapjainkból is könnyen találhatunk példákat, úgymint a háztartások jövedelmének átlaga, vagy a felsőoktatásban tanulók azon aránya, akik diplomájukat négy év alatt szerzik meg. Valójában a legtöbb ember számára az összegző statisztikák által válik a statisztika ténylegesen kézzelfoghatóvá. Mi azokra az összegző statisztikákra koncentrálunk, amelyek egyetlen attribútum értékeit foglalják össze, de röviden bemutatunk néhány többváltozós összegző statisztikát is.

Jelen szakasz az összegző statisztikák leíró jellegére szorítkozik. Azonban ahogy a C. függelékben ismertettük, a statisztika úgy tekint az adatokra, hogy azok egy olyan mögöttes statiszikai folyamatból származnak, amelyet különböző paraméterek jellemeznek, és némely, itt tárgyalt összegző statisztika úgy is tekinthető, mint azon alapvető eloszlások statisztikai paramétereinek becslése, amelyek az adatokat generálták.

Gyakoriságok és a módusz

Adott kategórikus értékeknek egy rendezetlen halmazánál az értékeket nem tudjuk tovább jellemezni azon kívül, hogy kiszámoljuk minden egyes érték gyakoriságát, amellyel adatok egy bizonyos halmazában előfordul. Ha adott egy x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ kategórikus attribútum, amely a { v 1 ,, v i , v k } MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaadAhapaWaaSbaaSqaa8qacaaIXaaapaqabaGcpeGaaiilaiabgAci8kaacYcacaWG2bWdamaaBaaaleaapeGaamyAaaWdaeqaaOWdbiaacYcacqGHMacVcaWG2bWdamaaBaaaleaapeGaam4AaaWdaeqaaOWdbiaac2haaaa@441C@ értékeket veheti fel és egy m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ objektumból álló halmaz, akkor a v i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamODa8aadaWgaaWcbaWdbiaadMgaa8aabeaaaaa@384D@ értékhez tartozó gyakoriság a következőképpen definiálható:

gyakoriság( v i )= a v i  attribútumértékkel rendelkező egyedek száma m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaae4zaiaabMhacaqGHbGaae4Aaiaab+gacaqGYbGaaeyAaiaabohacaqGHdGaae4zaiaacIcacaWG2bWdamaaBaaaleaapeGaamyAaaWdaeqaaOWdbiaacMcacqGH9aqpdaWcaaWdaeaapeGaaeyyaiaabccacaqG2bWdamaaBaaaleaapeGaaeyAaaWdaeqaaOGaaeiia8qacaqGHbGaaeiDaiaabshacaqGYbGaaeyAaiaabkgacaqG6dGaaeiDaiaabwhacaqGTbGaaey6aiaabkhacaqG0bGaaey6aiaabUgacaqGRbGaaeyzaiaabYgacaqGGaGaaeOCaiaabwgacaqGUbGaaeizaiaabwgacaqGSbGaae4AaiaabwgacaqG6bGaaeyubiaabccacaqGLbGaae4zaiaabMhacaqGLbGaaeizaiaabwgacaqGRbGaaeiiaiaabohacaqG6bGaaey4aiaab2gacaqGHbaapaqaa8qacaWGTbaaaaaa@737E@ (3.1)

Egy kategórikus attribútum módusza a legmagasabb gyakorisággal rendelkező érték.

3.1. Példa.

Tekintsünk egy hallgatókból álló halmazt, akiknek egyik jellemzőjük az Évfolyam, amely a következő halmazból vehet fel értékeket: {gólya,másodéves,harmadéves,végzős} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaadEgacaWGZdGaamiBaiaadMhacaWGHbGaaiilaiaad2gacaWGHdGaam4Caiaad+gacaWGKbGaamy6aiaadAhacaWGLbGaam4CaiaacYcacaWGObGaamyyaiaadkhacaWGTbGaamyyaiaadsgacaWGPdGaamODaiaadwgacaWGZbGaaiilaiaadAhacaWGPdGaam4zaiaadQhacaWGrfGaam4Caiaac2haaaa@58C4@ . A 3.1. táblázat a hallgatók létszámát tartalmazza az Évfolyam attribútum minden egyes értékénél. Az Évfolyam attribútum módusza a gólya, 0,33 gyakorisággal. Ez lemorzsolódás miatti kimaradásra, vagy a szokásosnál nagyobb elsős évfolyamra utalhat.

3.1. táblázat - Egy feltételezett főiskola hallgatóinak évfolyamonkénti létszáma

Évfolyam

Létszám

Gyakoriság

gólya

200

0,33

másodéves

160

0,27

harmadéves

130

0,22

végzős

110

0,18


A kategórikus attribútumok gyakran -- de nem mindig -- kevés értékkel rendelkeznek, így a módusz és az előforduló értékek gyakoriságai lehetnek érdekesek és hasznosak. Megjegyezzük, hogy mivel az Írisz-adathalmaz Osztály attribútumánál mindhárom virágtípus azonos gyakorisággal rendelkezik, a módusz itt nem játszik fontos szerepet.

A módusz imént bemutatott definíciójával nem használható jól folytonos adatok esetében, mivel egy érték nem fordulhat elő egynél többször. Mindazonáltal, bizonyos esetekben a módusz fontos információt hordozhat az értékek természetéről vagy a hiányzó értékekről. Például 20 ember magassága milliméterben mérve tipikusan nem fog azonos eredményeket adni, de deciméterben mérve már valószínűleg igen. Hasonlóan, ha a hiányzó érték jelölésére egy egyedi értéket használunk, akkor ez gyakran móduszként fog megjelenni.

Percentilisek

Rendezett adatok esetében sokkal hasznosabb egy értékhalmaz percentiliseivel dolgoznunk. Pontosabban, egy adott x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ sorrendi vagy folytonos attribútum, valamint egy p MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiCaaaa@36FF@ 0 és 100 közötti szám esetén az x p MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaadchaa8aabeaaaaa@3856@ , p MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiCaaaa@36FF@ -edik percentilis, x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ -nek egy olyan értéke, amelytől x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ megfigyelt értékeinek p% MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiCaiaabwcaaaa@37A7@ -a kisebb. Például, az 50 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaGynaiaaicdaaaa@3783@ -edik percentilis értéke x 50% MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaiwdacaaIWaGaaeyjaaWdaeqaaaaa@3982@ , ahol x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ értékeinek 50%-a kisebb, mint x 50% MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaiwdacaaIWaGaaeyjaaWdaeqaaaaa@3982@ . 3.2. táblázat az Írisz-adathalmaz négy mennyiségi jellemzőjének percentiliseit mutatja.

3.2. Példa.

1-től 10-ig az egész számok x 0% , x 10% ,, x 90% , x 100% MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaaicdacaqGLaaapaqabaGcpeGaaiilaiaadIhapaWaaSbaaSqaa8qacaaIXaGaaGimaiaabwcaa8aabeaak8qacaGGSaGaeyOjGWRaaiilaiaadIhapaWaaSbaaSqaa8qacaaI5aGaaGimaiaabwcaa8aabeaak8qacaGGSaGaamiEa8aadaWgaaWcbaWdbiaaigdacaaIWaGaaGimaiaabwcaa8aabeaaaaa@487D@ percentilisei sorrendben a következők: 1,0; 1,5; 2,5; 3,5; 4,5; 5,5; 6,5; 7,5; 8,5; 9,5; 10,0. Hagyományosan, min(x)= x 0% MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeyBaiaabMgacaqGUbGaaiikaiaadIhacaGGPaGaeyypa0JaamiEa8aadaWgaaWcbaWdbiaaicdacaqGLaaapaqabaaaaa@3EEC@ és max(x)= x 100% MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeyBaiaabggacaqG4bGaaiikaiaadIhacaGGPaGaeyypa0JaamiEa8aadaWgaaWcbaWdbiaaigdacaaIWaGaaGimaiaabwcaa8aabeaaaaa@4063@ .

3.2. táblázat - A csésze- és sziromlevelek hosszának és szélességének adatai centiméterben mérve

Percentilis

Csészelevél

Csészelevél

Sziromlevél

Sziromlevél

hossza

szélessége

hossza

szélessége

0

4,3

2,0

1,0

0,1

10

4,8

2,5

1,4

0,2

20

5,0

2,7

1,5

0,2

30

5,2

2,8

1,7

0,4

40

5,6

3,0

3,9

1,2

50

5,8

3,0

4,4

1,3

60

6,1

3,1

4,6

1,5

70

6,3

3,2

5,0

1,8

80

6,6

3,4

5,4

1,9

90

6,9

3,6

5,8

2,2

100

7,9

4,4

6,9

2,5


Helyzetmutatók: átlag és medián

Folytonos adatok esetében a legszélesebb körben használt két összegző statisztika az átlag és a medián, amelyek egy értékhalmaz elhelyezkedésének mutatói. Vegyünk egy m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ objektumból álló halmazt és egy x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ attribútumot. Legyen az { x 1 ,, x m } MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaadIhapaWaaSbaaSqaa8qacaaIXaaapaqabaGcpeGaaiilaiabgAci8kaacYcacaWG4bWdamaaBaaaleaapeGaamyBaaWdaeqaaOWdbiaac2haaaa@3F87@ halmaz az x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ attribútum értékei ezen az m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ objektumon. Konkretizálva, tekinthetjük ezt m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ gyerek magasságának. Az { x (1) ,, x (m) } MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaadIhapaWaaSbaaSqaa8qacaGGOaGaaGymaiaacMcaa8aabeaak8qacaGGSaGaeyOjGWRaaiilaiaadIhapaWaaSbaaSqaa8qacaGGOaGaamyBaiaacMcaa8aabeaak8qacaGG9baaaa@4239@ halmaz tartalmazza x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ értékeit nemcsökkenő sorrendben. Így x (1) =min(x) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaacIcacaaIXaGaaiykaaWdaeqaaOWdbiabg2da9iaab2gacaqGPbGaaeOBaiaacIcacaWG4bGaaiykaaaa@3FB8@ és x (m) =max(x) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaacIcacaWGTbGaaiykaaWdaeqaaOWdbiabg2da9iaab2gacaqGHbGaaeiEaiaacIcacaWG4bGaaiykaaaa@3FF1@ . Ekkor az átlag és a medián a következőképpen definiálható:

átlag(x)= x ¯ = 1 m i=1 m x i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaqGHdGaaeiDaiaabYgacaqGHbGaae4zaiaacIcacaWG4bGaaiykaiabg2da9iqadIhagaqeaiabg2da9maalaaabaGaaGymaaqaaiaad2gaaaWaaabCaeaacaWG4bWaaSbaaSqaaiaadMgaaeqaaaqaaiaadMgacqGH9aqpcaaIXaaabaGaamyBaaqdcqGHris5aaaa@45F5@ (3.2)

medián(x)={ x (r+1) , ha m páratlan, azaz m=2r+1, 1 2 ( x (r) + x (r+1) ), ha m páros, azaz m=2r. MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeyBaiaabwgacaqGKbGaaeyAaiaabgoacaqGUbGaaiikaiaadIhacaGGPaGaeyypa0Jaai4Ea8aafaqaaeGacaaabaWdbiaadIhapaWaaSbaaSqaa8qacaGGOaGaamOCaiabgUcaRiaaigdacaGGPaaapaqabaGcpeGaaiilaaWdaeaapeGaaeiAaiaabggacaqGGaGaamyBaiaabccacaqGWbGaaey4aiaabkhacaqGHbGaaeiDaiaabYgacaqGHbGaaeOBaiaabYcacaqGGaGaaeyyaiaabQhacaqGHbGaaeOEaiaabccacaWGTbGaeyypa0JaaGOmaiaadkhacqGHRaWkcaaIXaGaaiilaaWdaeaapeWaaSaaa8aabaWdbiaaigdaa8aabaWdbiaaikdaaaGaaiikaiaadIhapaWaaSbaaSqaa8qacaGGOaGaamOCaiaacMcaa8aabeaak8qacqGHRaWkcaWG4bWdamaaBaaaleaapeGaaiikaiaadkhacqGHRaWkcaaIXaGaaiykaaWdaeqaaOWdbiaacMcacaGGSaaapaqaa8qacaqGObGaaeyyaiaabccacaWGTbGaaeiiaiaabchacaqGHdGaaeOCaiaab+gacaqGZbGaaeilaiaabccacaqGHbGaaeOEaiaabggacaqG6bGaaeiiaiaad2gacqGH9aqpcaaIYaGaamOCaiaac6caaaaaaa@7FBD@ (3.3)

Összefoglalva, a medián páratlan számú adat esetén a középső érték, páros számú adatnál a két középső érték számtani átlaga. Így hét értéknél a medián x (4) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaacIcacaaI0aGaaiykaaWdaeqaaaaa@3978@ lesz, míg tíz érték esetében 1 2 ( x (5) + x (6) ) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeWaaSaaa8aabaWdbiaaigdaa8aabaWdbiaaikdaaaGaaiikaiaadIhapaWaaSbaaSqaa8qacaGGOaGaaGynaiaacMcaa8aabeaak8qacqGHRaWkcaWG4bWdamaaBaaaleaapeGaaiikaiaaiAdacaGGPaaapaqabaGcpeGaaiykaaaa@411D@ .

Bár az átlagot néha az értékek halmazának közepeként értelmezzük, ez csak abban az esetben helytálló, ha az értékek szimmetrikusan helyezkednek el. Ha az adatok aszimmetrikusak, a medián megfelelőbb mutató a középértékre. Az átlag a kiugró értékekre is érzékeny. Kiugró értékekkel rendelkező adathalmazok esetében a medián valójában sokkal megbízhatóbb becslést biztosít.

Az átlag szokásos definíciója kapcsán felmerülő problémákat elkerülendő, használhatjuk a csonkolt átlagot is. Határozzunk meg 0 és 100 között egy p MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiCaaaa@36FF@ százalékot, dobjuk el az adatok alsó és felső (p/2)% MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaiikaiaadchacaGGVaGaaGOmaiaacMcacaqGLaaaaa@3A6F@ -át, majd ezután számoljuk ki a szokásos módon az átlagot. A medián egy p=100% MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiCaiabg2da9iaaigdacaaIWaGaaGimaiaabwcaaaa@3ADC@ -os csonkolt átlag, míg a szokásos átlag p=0% MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiCaiabg2da9iaaicdacaqGLaaaaa@3967@ -nak felel meg.

3.3. Példa.

Tekintsük a következő értékek halmazát: {1,2,3,4,5,90} MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaaigdacaGGSaGaaGOmaiaacYcacaaIZaGaaiilaiaaisdacaGGSaGaaGynaiaacYcacaaI5aGaaGimaiaac2haaaa@40A8@ . Ekkor az átlag 17,5, míg a medián 3,5. A p MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiCaaaa@36FF@ = 40%-os csonkolt átlag viszont szintén 3,5.

3.4.Példa.

A 3.3. táblázat tartalmazza az Írisz-adatok négy mennyiségi jellemzőjének átlagát, mediánját és csonkolt átlagát ( p MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiCaaaa@36FF@ = 20%). Mindhárom helyzeti mutató hasonló értékeket vesz fel a sziromlevél hossza attribútum kivételével.

3.3. táblázat - A csésze- ill. sziromlevél hosszainak ill. szélességeinek átlaga és mediánja centiméterben kifejezve

Mutató

Csészelevél

Csészelevél

Sziromlevél

Sziromlevél

hossza

szélessége

hossza

szélessége

átlag

5,84

3,05

3,76

1,20

medián

5,80

3,00

4,35

1,30

csonkolt átlag (20%)

5,79

3,02

3,72

1,12


A szóródás mérőszámai: terjedelem és variancia

A folytonos adatok általánosan használt összegző statisztikáinak egy másik halmazát azok alkotják, amelyek értékek egy halmazának szóródását vagy szórását mérik. Ezek a mutatók jelzik, ha az attribútumértékek széles körben szétszóródnak, vagy ha többé-kevésbé egy pont köré koncentrálódnak, amely pont lehet például az átlag.

A legegyszerűbb ilyen mutató a terjedelem, amelyet, ha adott egy x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ attribútum m MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyBaaaa@36FC@ -számú { x 1 ,, x m } MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaai4EaiaadIhapaWaaSbaaSqaa8qacaaIXaaapaqabaGcpeGaaiilaiabgAci8kaacYcacaWG4bWdamaaBaaaleaapeGaamyBaaWdaeqaaOWdbiaac2haaaa@3F87@ értékkel, a következőképpen definiálhatunk:

terjedelem(x)=max(x)min(x)= x (m) x (1) . MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeiDaiaabwgacaqGYbGaaeOAaiaabwgacaqGKbGaaeyzaiaabYgacaqGLbGaaeyBaiaacIcacaWG4bGaaiykaiabg2da9iaab2gacaqGHbGaaeiEaiaacIcacaWG4bGaaiykaiabgkHiTiaab2gacaqGPbGaaeOBaiaacIcacaWG4bGaaiykaiabg2da9iaadIhapaWaaSbaaSqaa8qacaGGOaGaamyBaiaacMcaa8aabeaak8qacqGHsislcaWG4bWdamaaBaaaleaapeGaaiikaiaaigdacaGGPaaapaqabaGcpeGaaiOlaaaa@57C0@ (3.4)

Bár a terjedelem a legnagyobb szóródást mutatja, félrevezető lehet abban az esetben, ha az értékek nagy része egy szűk sávra korlátozódik, és viszonylag kevés a kiugrónak mondható érték. Éppen ezért a szóródás mérésénél a varianciát részesítjük előnyben. Egy x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ jellemző megfigyelt értékeinek varianciáját szokásosan s x 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Ca8aadaqhaaWcbaWdbiaadIhaa8aabaWdbiaaikdaaaaaaa@3926@ -tel jelöljük, definíciója lent látható. A standard eltérés, vagy szórás, amely a variancia négyzetgyöke és jelölése s x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Ca8aadaWgaaWcbaWdbiaadIhaa8aabeaaaaa@3859@ , mértékegysége megegyezik x MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEaaaa@3707@ -ével.

variancia(x)= s x 2 = 1 m1 i=1 m ( x i x ¯ ) 2 MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeODaiaabggacaqGYbGaaeyAaiaabggacaqGUbGaae4yaiaabMgacaqGHbGaaiikaiaadIhacaGGPaGaeyypa0Jaam4Ca8aadaqhaaWcbaWdbiaadIhaa8aabaWdbiaaikdaaaGccqGH9aqpdaWcaaWdaeaapeGaaGymaaWdaeaapeGaamyBaiabgkHiTiaaigdaaaWaaabCaeaacaGGOaGaamiEa8aadaWgaaWcbaWdbiaadMgaa8aabeaak8qacqGHsislceWG4bWdayaaraWdbiaacMcapaWaaWbaaSqabeaapeGaaGOmaaaaaeaacaWGPbGaeyypa0JaaGymaaqaaiaad2gaa0GaeyyeIuoaaaa@5637@ (3.5)

Az átlagot torzíthatják a kiugró értékek, és mivel a varianciát az átlag alapján számoljuk ki, az szintén érzékeny lesz ezekre. Valójában a variancia különösen érzékeny a kiugró értékekre, mivel az átlag és a többi érték négyzetes különbségét használja fel. Ennek eredményeként értékek egy halmazának szóródására sokkal robusztusabb becsléseket szoktak használni. A következőkben három ilyen mérőszámot definiálunk: az átlagos abszolút eltérést (AAD -- absolute average difference) , a medián abszolút eltérést (MAD -- median absolute difference), valamint az interkvartilis terjedelmet (IQR -- interquartile range). Az Írisz-adatok vonatkozásában a 3.4. táblázat tartalmazza ezen mérőszámokat.

AAD(x)= 1 m i=1 m | x i x ¯ | MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeyqaiaabgeacaqGebGaaiikaiaadIhacaGGPaGaeyypa0ZaaSaaa8aabaWdbiaaigdaa8aabaWdbiaad2gaaaWaaabCaeaadaabdaqaaiaadIhapaWaaSbaaSqaa8qacaWGPbaapaqabaGcpeGaeyOeI0IabmiEa8aagaqeaaWdbiaawEa7caGLiWoaaSabaeqabaGaamyAaiabg2da9iaaigdaaeaaaaqaaiaad2gaa0GaeyyeIuoaaaa@4B3C@ (3.6)

MAD(x)=medián({| x 1 x ¯ |,,| x m x ¯ |}) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeytaiaabgeacaqGebGaaiikaiaadIhacaGGPaGaeyypa0JaaeyBaiaabwgacaqGKbGaaeyAaiaabgoacaqGUbGaaiikaiaacUhacaGG8bGaamiEa8aadaWgaaWcbaWdbiaaigdaa8aabeaak8qacqGHsislceWG4bWdayaaraWdbiaacYhacaGGSaGaeyOjGWRaaiilaiaacYhacaWG4bWdamaaBaaaleaapeGaamyBaaWdaeqaaOWdbiabgkHiTiqadIhapaGbaebapeGaaiiFaiaac2hacaGGPaaaaa@54D9@ (3.7)

interkvartilis terjedelem(x)= x 75% x 25% MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaeyAaiaab6gacaqG0bGaaeyzaiaabkhacaqGRbGaaeODaiaabggacaqGYbGaaeiDaiaabMgacaqGSbGaaeyAaiaabohacaqGGaGaaeiDaiaabwgacaqGYbGaaeOAaiaabwgacaqGKbGaaeyzaiaabYgacaqGLbGaaeyBaiaacIcacaWG4bGaaiykaiabg2da9iaadIhapaWaaSbaaSqaa8qacaaI3aGaaGynaiaabwcaa8aabeaak8qacqGHsislcaWG4bWdamaaBaaaleaapeGaaGOmaiaaiwdacaqGLaaapaqabaaaaa@586D@ (3.8)

3.4. táblázat - A csésze- ill. sziromlevél hosszának ill. szélességének terjedelme, standard eltérése vagy szórása (std -- standard deviation), átlagos abszolút eltérése (AAD -- absolute average difference), medián abszolút eltérése (MAD -- median absolute difference) és interkvartilis terjedelme (IQR -- interquartile range) centiméterben kifejezve

Mutató

Csészelevél

Csészelevél

Sziromlevél

Sziromlevél

hossz

szélesség

hossz

szélesség

terjedelem

3,6

2,4

5,9

2,4

szórás

0,8

0,4

1,8

0,8

AAD

0,7

0,3

1,6

0,6

MAD

0,7

0,3

1,2

0,7

IQR

1,3

0,5

3,5

1,5


Többváltozós összegző statisztikák

A számos attribútumot tartalmazó adatok (többváltozós adatok) helyzeti mutatóit az attribútumonkénti átlag vagy medián kiszámításával kaphatjuk meg. Így egy adott adathalmaz egyedeinek átlagát, x ¯ MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGabCiEa8aagaqeaaaa@3732@ -t, a következőképpen határozhatjuk meg:

x ¯ =( x 1 ¯ ,, x n ¯ ), MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGabCiEa8aagaqea8qacqGH9aqpcaGGOaWdamaanaaabaWdbiaadIhapaWaaSbaaSqaa8qacaaIXaaapaqabaaaaOWdbiaacYcacqGHMacVcaGGSaWdamaanaaabaWdbiaadIhapaWaaSbaaSqaa8qacaWGUbaapaqabaaaaOWdbiaacMcacaGGSaaaaa@422F@ (3.9)

ahol x i ¯ MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaamaanaaabaaeaaaaaaaaa8qacaWG4bWdamaaBaaaleaapeGaamyAaaWdaeqaaaaaaaa@3860@ az x i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaadMgaa8aabeaaaaa@384F@ i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik attribútum átlaga.

Többváltozós adatok esetében minden egyes attribútum szórása a többi attribútumtól függetlenül kiszámítható 3.2.4. szakaszban leírtak alapján. Folytonos adatok esetében azonban a szórás sokkal inkább megragadható az S MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaaC4uaaaa@36E6@ kovarianciamátrixszal, amelynek ij MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaiaadQgaaaa@37E7@ -edik eleme, s ij MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Ca8aadaWgaaWcbaWdbiaadMgacaWGQbaapaqabaaaaa@3939@ , az i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik és j MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOAaaaa@36F9@ -edik attribútum kovarianciája. Így, ha x i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaadMgaa8aabeaaaaa@384F@ és x j MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaadQgaa8aabeaaaaa@3850@ az i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik és j MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOAaaaa@36F9@ -edik attribútumok, akkor

s ij =kovariancia( x i , x j ). MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Ca8aadaWgaaWcbaWdbiaadMgacaWGQbaapaqabaGcpeGaeyypa0Jaae4Aaiaab+gacaqG2bGaaeyyaiaabkhacaqGPbGaaeyyaiaab6gacaqGJbGaaeyAaiaabggacaGGOaGaamiEa8aadaWgaaWcbaWdbiaadMgaa8aabeaak8qacaGGSaGaamiEa8aadaWgaaWcbaWdbiaadQgaa8aabeaak8qacaGGPaGaaiOlaaaa@4BFC@ (3.10)

A kovariancia( x i , x j ) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaae4Aaiaab+gacaqG2bGaaeyyaiaabkhacaqGPbGaaeyyaiaab6gacaqGJbGaaeyAaiaabggacaGGOaGaamiEa8aadaWgaaWcbaWdbiaadMgaa8aabeaak8qacaGGSaGaamiEa8aadaWgaaWcbaWdbiaadQgaa8aabeaak8qacaGGPaaaaa@46FB@ pedig a következőképpen számítható ki:

kovariancia( x i , x j )= 1 m1 k=1 m ( x ki x ¯ i ) ( x kj x ¯ j ), MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0lbbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaqabeaadaaakeaacaqGRbGaae4BaiaabAhacaqGHbGaaeOCaiaabMgacaqGHbGaaeOBaiaabogacaqGPbGaaeyyaiaacIcacaWG4bWaaSbaaSqaaiaadMgaaeqaaOGaaiilaiaadIhadaWgaaWcbaGaamOAaaqabaGccaGGPaGaeyypa0ZaaSaaaeaacaaIXaaabaGaamyBaiabgkHiTiaaigdaaaWaaabCaeaadaqadaqaaiaadIhadaWgaaWcbaGaam4AaiaadMgaaeqaaOGaeyOeI0IabmiEayaaraWaaSbaaSqaaiaadMgaaeqaaaGccaGLOaGaayzkaaaaleaacaWGRbGaeyypa0JaaGymaaqaaiaad2gaa0GaeyyeIuoakmaabmaabaGaamiEamaaBaaaleaacaWGRbGaamOAaaqabaGccqGHsislceWG4bGbaebadaWgaaWcbaGaamOAaaqabaaakiaawIcacaGLPaaacaGGSaaaaa@5CBB@ (3.11)

ahol x ki MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaadUgacaWGPbaapaqabaaaaa@393F@ illetve x kj MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamiEa8aadaWgaaWcbaWdbiaadUgacaWGQbaapaqabaaaaa@3940@ a k MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Aaaaa@36FA@ -adik objektum i MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamyAaaaa@36F8@ -edik illetve j MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaamOAaaaa@36F9@ -edik attribútumának értékei. Megjegyezzük, hogy kovariancia( x i , x i )=variancia( x i ) MathType@MTEF@5@5@+=feaagCart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVCI8FfYJH8YrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfeaY=biLkVcLq=JHqpepeea0=as0Fb9pgeaYRXxe9vr0=vr0=vqpWqaaeaabiGaciaacaqabeaadaqaaqaaaOqaaabaaaaaaaaapeGaam4Aaiaad+gacaWG2bGaamyyaiaadkhacaWGPbGaamyyaiaad6gacaWGJbGaamyAaiaadggacaGGOaGaamiEa8aadaWgaaWcbaWdbiaadMgaa8aabeaak8qacaGGSaGaamiEa8aadaWgaaWcbaWdbiaadMgaa8aabeaak8qacaGGPaGaeyypa0JaamODaiaadggacaWGYbGaamyAaiaadggacaWGUbGaam4yaiaadMgacaWGHbGaaiikaiaadIhapaWaaSbaaSqaa8qacaWGPbaapaqabaGcpeGaaiykaaaa@5429@ . Ezért a kovarianciamátrix főátlójában az attribútumok varianciái jelennek meg.

Két attribútum kovarianciája annak mutatója, hogy a két attribútum milyen mértékben változik együtt, amely függ a változók nagyságától. Egy nullaközeli érték azt jelzi, hogy két attribútum nincs (lineáris) kapcsolatban egymással, viszont nem lehet a két változó közötti kapcso