Big Data, niet het antwoord op al je vragen

W1siziisimnvbxbpbgvkx3rozw1lx2fzc2v0cy9waxnzzxj2yw5iywfycyavanbnl2jsb2dpy29ulmpwzyjdxq

Britt Willemsen

geplaatst 3 maanden geleden

This image will be displayed on the main blog page

blog big data niet het antwoord op alles
blog big data niet het antwoord op alles

Big Data is een van de focusgebieden van Visser & Van Baars, toch vinden wij dat Big Data niet het antwoord op alles is. Hoe belangrijk data  vandaag de dag ook wordt gevonden, niet alle antwoorden zijn in de getallen te vinden. Nu de AVG echt in is gegaan, zijn veel bedrijven bang voor het “verliezen” van waardevolle data. De nieuwe regelgeving perkt de verzameling en het bewaren van data natuurlijk in, maar dat hoeft niet het einde te betekenen van het Big Data tijdperk. Sterker nog, wij geloven dat dit het begin is van een nieuw Big Data tijdperk. Niet meer zomaar alles verzamelen en Big Data zien voor wat het is; een middel en geen doel op zich.  

Meer data, of gewoon de juiste vragen stellen?

Nu je niet zomaar meer data kunt verzamelen, moet je kritisch kijken naar wat je nu eigenlijk echt wilt weten. Klinkt misschien als een open deur, maar binnen veel organisaties werd vooral veel data verzameld “voor het geval dat”. Hiermee stapte veel bedrijven in de val van vooral maar alles willen weten. Dat is echter geen strategie, meer een noodgreep omdat je eigenlijk nog niet precies weet wat je van je data wilt leren.

Terug naar de tekentafel dus, want om “big data” betekenis te geven, moet je eerst weten wat je wilt. De juiste vragen stellen en door die juiste vragen verzamel (en verwerk!) je alleen data waar je echt wat aan hebt. Jij blij, je analist blij en ook nog eens conform de AVG.

Vervuilde data en out-of-the-box denken

De juiste vragen stellen (en daar dus goed over nadenken) helpt ook bij een ander probleem van Big Data; datavervuiling. Datavervuiling ontstaat sneller dan je denkt, bijvoorbeeld wanneer de ondervraagde personen liegen. Zeker wanneer je gebruikmaakt van een dataset waarin consumenten zelf antwoorden hebben gegeven, heb je te maken met een bepaalde mate van vervuiling. Mensen antwoorden nou eenmaal liever sociaalwenselijk dan dat ze echt de waarheid vertellen, zelfs wanneer data anoniem wordt afgenomen.

Tunnelvisie

Ook ontstaat er soms tunnelvisie door bijvoorbeeld beroepsdeformatie. We denken dan bij het stellen van een vraag alleen aan onze eigen bedrijfstak of business en vergeten de mogelijkheid van invloeden van buitenaf. Omdat een dataset je alleen kan vertellen wat jij vraagt, zorgt ook dit vaak voor vervuilde data en onjuiste conclusies. Denk hierbij bijvoorbeeld aan een webshop die op de openingsavond van hun sale ziet dat groot gedeelte van Nederland zijn aankopen niet afrondt. Ze zouden dan kunnen denken dat Nederland niet geïnteresseerd is in deze uitverkoop. Dat blijkt toch duidelijk uit deze data? Wanneer ze buiten de dataset en buiten hun eigen bedrijf kijken, zien ze dat Nederland die dag te maken had met een flinke stroomstoring waardoor veel consumenten hun aankoop niet konden afronden. Nu ze dit weten, kunnen ze deze klanten zelfs een mailtje sturen met stroomstoringskorting. Zo geven ze een persoonlijke draai aan remarketing met informatie die ze niet uit data alleen konden halen.

De juiste conclusies trekken

Het is belangrijk dat je naast de juiste vragen stellen, ook de antwoorden op de juiste manier interpreteert. Twee datasets met overeenkomsten hoeven niets met elkaar te maken te hebben. Dit wordt goed geïllustreerd in een voorbeeld van Tyler Vigen (auteur van het boek Spurious Correlations) waarin hij beschrijft dat het aantal mensen dat in de VS omkomt bij een verkeersongeluk overeenkomt met het aantal geproduceerde auto’s in Japan. Daaruit zou je kunnen concluderen dat wanneer de productie van Japanse auto’s omhooggaat, er ook meer verkeersdoden in de VS zijn. Verbieden de productie van die Japanse auto’s! Of toch maar niet?

Gelukkig is het overduidelijk dat deze conclusie ongefundeerd is, maar dat is niet altijd het geval. Soms zijn er overeenkomsten in datasets die zorgen voor een conclusie waar men zich wel in kan vinden, maar die conclusie kan net zo fout zijn als in het voorbeeld hierboven. Daar wil je als bedrijf natuurlijk niet je strategie door laten bepalen. 

Deze twee voorbeelden illustreren voor ons perfect waarom big data niet het antwoord op al je vragen is. Het is een tool die je kunt inzetten om antwoorden te krijgen, maar net zoals met al het gereedschap moet je dit wel op de juiste manier doen. Trap niet in de valkuil van alles maar willen weten en laat een goede analist conclusies trekken uit je data. Dan heeft big data misschien niet alle antwoorden, maar wel de antwoorden die je wilde hebben.