Het enthousiasme rond big data ebt weg

Als we de mogen geloven, hebben we net een periode gehad met extreem hoge verwachtingen rond big data en belanden we nu in een periode van teleurstelling.

Sommige bedrijven die nu bezig zijn met big data beginnen aan de marketing tamtam te twijfelen en zijn kritisch gaan kijken naar de beperkingen aan de beperkingen van big data systemen en de analysetools.

De belofte van big data is dat hoe meer data je verzamelt, hoe meer inzichten je voor je organisatie verkrijgt. Een ontwikkelaar van Google, het bedrijf dat als geen ander van big data heeft geprofiteerd, liet onlangs al te weten te twijfelen aan de effectiviteit van data.

Ook in de laatste edities van Science News wordt in een serie artikelen stilgestaan bij de beperkingen van big data. Succesverhalen zouden moeilijk te kopiëren zijn.

'Te veel complexiteit'

Volgens Science News is het voornaamste probleem datavaliditeit. met zoveel data en zoveel verschillende tools om het te analyseren, hoe kun je dan zeker zijn dat de resultaten correct zijn?

"Iedere keer dat een onderzoeker het ene computerprogramma boven het andere verkiest of beslist om in plaats van de ene variabele de andere te onderzoeken, kan deze beslissing tot compleet andere conclusies leiden", schrijft moleculair biologe Tina Hesman Saey.

Niet alleen worden big data-gebruikers met het validiteitsprobleem geconfronteerd, ook de gehele onderzoeksgemeenschap heeft hiermee te maken. In een eerder artikel wees Science News al op niet te repliceren onderzoeksresultaten. Steeds vaker kunnen wetenschappers van eerder gepubliceerde studies niet achterhalen of de bevindingen daadwerkelijk kloppen.

Een van de grondbeginselen van goede wetenschap is dat resultaten door iedereen moeten kunnen worden gereproduceerd. Maar steeds meer onderzoekers komen erachter dat dit met big data niet lukt.

Publicatiedruk en verkeerde toepassing van analytics

"Repliceerbaarheid vormt de hoeksteen van wetenschap, maar veel studies falen hierin", schrijft Saey. Hoewel veel foute papers ontstaan door de druk te moeten publiceren ('publish or perish'), worden anderen gevoed door verkeerd gebruik van statistische analyse. Het is verdraaid lastig om dit op een correcte manier te doen, stelt Saey.

Ondertussen wijzen verschillende experts op de holle marketingbeloften die leveranciers als IBM en HP hun (potentiële) klanten doen. "Er leeft een idee in de marketing rond datawetenschap dat big data-analyse altijd snel gedaan kan worden en dat het een innovatief en snel veranderend bedrijf kan ondersteunen", schrijft datawetenschapper John Foreman van MailChimp.com in een recente blogbijdrage. "In mijn beleving en volgens de ervaring van andere analisten die ik ken, staat dit marketingidee ver van de realiteit af."

Related:
1 2 Page 1
Page 1 of 2
Download CIO's Roadmap Report: Data and analytics at scale