11 maart 2009
Datamining
Afgelopen maandag bezocht ik een lezing over datamining, door prof. dr. Arno Siebes. Datamining is het ontdekken van patronen in grote hoeveelheden data. En waar voor de astronoom de telescoop de heilige graal is en voor de bioloog de microscoop, is voor de dataminer de datascoop zijn beste maatje. De datascoop bestaat uit een grote database met persoonsgegevens (wat kopen mensen bij de supermarkt, wat is hun medisch dossier, hoe vaak hebben ze parkeerschade aan hun auto, et cetera) en een algoritme dat een patroon in deze database kan herkennen. De patronen in deze data kennen gretig aftrek bij bijvoorbeeld de verzekeringsindustrie.
Hoe werkt dat?
Je hebt bijvoorbeeld een database met daarin de boodschappen die iedereen vandaag heeft gedaan. Je wilt kijken of er een patroon is in wat mensen kopen, bijvoorbeeld of mensen die Activia kopen meer dan andere mensen de Telegraaf kopen. Je ondezoekt dus of twee variabelen afhankelijk of onafhankelijk zijn. Je gaat dan zoeken in je database naar mensen die zowel Activia als de Telegraaf achter hun naam hebben staan en telt deze (dit aantal noem je de support). Je berekent ook hoeveel mensen je met deze kenmerken zou verwachten als het onafhankelijke variabelen zouden zijn (minimum support) en als de support hoger is dan de minimum support, heb je een patroon te pakken.
Wat is er mis met datamining?
Op zich is het een vrij onschuldige tak van ‘wetenschap’, totdat de dataminers gaan denken dat ze wetenschappelijke uitspraken kunnen doen met hun patronen. Ten eerste is het altijd mogelijk een patroon te herkennen in data. Als je in eerste instantie geen patroon vindt, kan bijvoorbeeld je minimum support te hoog zijn. Na het verlagen van de minimum support is het altijd mogelijk een patroon in de data (misschien zelfs in mijn bioritme) te vinden. Als je volledig willekeurige (dus zonder patroon) data hebt, zal na het verlagen van de minimum support je algoritme in de ruis van je willekeurige data een patroon vinden, die altijd aanwezig is omdat je met discrete waarden werkt. Het tweede probleem is de generalisatie: dataminers vinden het aan de hand van hun patroonherkenning gerechtvaardigd te generaliseren: het kopen van Activia en de Telegraaf zijn geen onafhakelijke variabelen, dus Activia-drinkers kopen vaker/minder vaak de Telegraaf. Waar halen onze informatici de rechtvaardiging van deze generalisatie vandaan? Als ik nu Activia ga drinken, heb ik meteen een grotere kans dat ik de Telegraaf koop? Siebes vereenvoudigde de statistiek door te zeggen dat het slechts tellen is. Hij miste hiermee iets belangrijks: statistiek is tellen en het delen van twee getelde variabelen op elkaar:
kans. De generalisatie op basis van een kans is ridicuul, zeker op deze schaal. Statistiek is geen overbodige tak van wetenschap. In mijn vakgebied (scheikunde) zijn ongeveer alle fysische en kwantummechanische effecten van statistische aard, maar dan hebben we het over moleculen: hun gedrag is veel minder gevarieerd dan dat van mensen en de aantallen (1023) zijn vele malen groter dan die bij de statistiek op menselijk gedrag (~103). Puur op basis van een kans een bindende uitspraak doen voor een kleine groep mensen kan niet. Als laatste probleem is dat de datamining in staat is om onbeperkt ‘patronen’ te herkennen en dit allemaal ‘verbanden’ te noemen, zoals bijvoorbeeld “Strijken en dweilen helpt tegen borstkanker”.1 Ik durf mijn hand er voor in het vuur te steken dat hier geen causaal verband is tussen het huishouden en borstkanker. Het scanderen van, op een database gebaseerde, wetenschappelijk ononderbouwde, stellingen is het handelsmerk van deze onderzoeken.
Belang van datamining
Al met al betwijfel ik sterk of datamining van belang is voor de wetenschap of de maatschappij. Datamining heeft als typische onderzoeksresultaten beweringen als “Koffie drinken halveert kans op darmkanker bij vrouwen” of “Kattenbezitters krijgen minder vaak een hartaanval”.2 Naast dat dit twijfelachtige beweringen zijn, moet je bedenken of je zulke informatie wilt blootleggen. Uit de database kan de ‘perfecte levensstijl’ geëxtraheerd worden, de manier van leven waarmee je zo oud mogelijk wordt. Behalve dat verzekeringsmaatschappijen gek zijn op dit soort informatie, zou ik niet willen dat we allemaal worden geacht deze optimale stijl na te leven, allemaal een eenheidworst worden. Dat het verboden wordt dingen te ondernemen die niet in deze levensstijl passen, zoals roken in openbare gelegenheden pas ook verboden is.
1: de bron is het Algemeen Dagblad
2: voor een meer volledige lijst verwijs ik graag naar FrankLeonard.nl
Deze keer (woensdag 11 maart 2009) geheel verzorgd door Mathijs.


Op 11 maart 2009 om 22:10 zei Jerry :
Wat je in de sectie “Hoe werkt dat” beschrijft is slechts een (zeer basale)
techniek die in de datamining wordt toegepast. Dit is het zogenaamde “A priori”
algoritme, dat frequente patronen samenvoegt tot grotere patronen, die ook
frequent zijn, iets wat in dit stuk niet naar voren komt. Wat verder over het
hoofd gezien wordt is dat er nog een belangrijke variabele in dit algoritme is
die “confidence” wordt genoemd. Deze variabele filtert ruis uit.
Natuurlijk kan je dit soort technieken danig misbruiken zoals je al suggereert,
zoals een wijzer man als ik al eens zei: “Statistiek is voor de mens als een
lantaarnpaal voor een dronkeman; het dient ter ondersteuning, niet ter
verlichting.” Het neemt niet weg dat bij goed gebruik wel degelijk licht
geworpen kan worden in de duisternis.
Verder geloof (en hoop) ik niet dat een zichzelf respecterende dataminer zich
waagt aan het trekken van causale verbanden, dat is iets voor de experts (of de
kranten die bol staan van de koppen die je noemt).
Natuurlijk is het zo dat je datamining, net als statistiek, niet als absolute
waarheid kan beschouwen. Voorzichtigheid is geboden. Maar verwijt de makers van
een techniek niet van het misbruik ervan.
Wat het belang van datamining betreft; je richt je weer op het vinden van
triviale verbanden, maar dat is niet de essentie van datamining. Datamining is
het toepassen van allerlei technieken op databases die veel te groot zijn om
traditionele statistiek op te bedrijven. Het is een wetenschap (zonder quotes),
die met technieken werkt die sterk gerelateerd zijn aan kunstmatige
intelligentie, die nog enigszins in staat is om patronen te ontdekken in de
gigantische overdaad aan gegevens waar we in de huidige samenleving mee te
maken hebben.
Op 12 maart 2009 om 9:31 zei Mathijs :
@Jerry: wat ik niet voldoende heb duidelijk gemaakt in mijn stuk, is dat ik geen problemen heb met de wetenschap datamining op zich. Zo zijn de wetten van Kepler geëxtraheerd uit de banen van de planeten met datamining, een toepassing die ik wel fascinerend vind. Ik wil in mijn stuk alleen het misbruik van datamining bij het verbanden leggen in menselijk gedrag aan de kaak stellen. Dit is een vak dat de laatste tijd in opmars lijkt te komen en waarvan ik het nut dus sterk betwijfel, gezien de vaak lage confidence en elk gebrek aan causaliteit. Een beetje oeverloos onderzoek vind ik. Verder kan ik het alleen maar met je eens zijn.
Op 12 maart 2009 om 11:21 zei Frank :
Over datamining en Telegraaf-lezers gesproken. Als gevolg van een link op Telegraaf.nl naar het WST-artikel Amber faalt heb ik ook wat data verzameld en geanalyseerd. Ik kan dus nu zeggen dat het gros van de telegraaf lezers Internet Explorer in combinatie met Windows Vista gebruikt. Safari en Firefox vormen samen nog geen 2%.
En er zit bovendien een aardig deel viespeuken tussen die googlen naar dingen als ‘kort rokje’ en ‘onder korte rokjes kijken’.
Zo goed mathijs?