364
UTFORSKA vad vi kan och gör
UTFORSKA vad vi kan och gör

Stäng

Kompetensområden

Kontakta mig

Vill du veta mer och ta reda på hur vi kan hjälpa just dig? Lämna dina kontaktuppgifter

Valdation:
* Förnamn:
* Efternamn:
Företag:
Tel:
* Email:
Land:
* Meddelande:
Successfully sent!
Could not send the mail, try again later!
KAFFE ELLER TÉ? Vi kan väl ses över en kopp.

Blog oktober 30, 2015

Två saker jag stör mig på varje gång någon nämner ”Big data” som en lösning på något

Jättemycket data är sämre än lagom mycket data

Det finns ett klassiskt statsvetenskapligt exempel där Literary Digest, en välrenommerad tidning, skulle förutse vinnaren i det amerikanska presidentvalet 1936. Efter att tidningen gjort en enorm undersökning med 2,4 miljoner svarande var vinnaren självklar; republikanernas kandidat Alfred Landon skulle vinna en överväldigande seger. Samtidigt gjorde ett nytt och okänt undersökningsföretag, American Institute of Public Opinion, en mycket mindre undersökning med bara 50 000 personer. Den visade istället helt motsatt resultat: motkandidaten F. D. Roosevelt skulle vinna stort. Företagets grundare, en viss George Gallup (efter vilken Gallup-undersökningen fått sitt namn), hade förstås rätt. Roosevelt vann stort.

Vad hade gått fel? Hur kan 48 gånger mer data vara sämre? Svaret ligger i ett felaktigt antagande som också ofta görs för Big data. Vi utgår från att det data vi har är all data (ofta uttryckt ”N = All”), vilket väldigt sällan är sant. Faktum är att om samtliga 10 miljoner som fått röstsedlar i Literary Digests undersökning valt att svara, så hade de åtminstone förutsett rätt kandidat. Att välja ut rätt data (sampling) och att försöka utröna vilken data man inte har är en förutsättning för att en analys ska ge ett rättvisande resultat. Att jobba med små men representativa datamängder har också andra fördelar som hastighet, kostnadseffektivitet och hanterbarhet.

 

Det finns också ett annat antagande som görs inom Big data, speciellt inom undergrenar som prediktiv analys och machine learning där man letar efter mönster: att korrelation är detsamma som kausalitet. Detta är ett ständigt återkommande problem inom dålig forskning, dåligt skrivna underlag och dåligt tagna beslut. Faktum är att korrelation (hur väl två sakers variation överensstämmer) inte alls har med kausalitet att göra (huruvida det ena orsakar det andra). Har man ingen logisk förklaring till varför ett mönster indikerar att ett annat uppstår, så är den prediktiva förmågan bara bra tills den inte är bra längre. Prediktiva modeller tenderar därför att bryta ihop lite när som helst och av orsaker man inte har en aning om. Ett exempel på detta är Google Flu Trends som genom att följa mängden sökningar på bland annat ”flu symptoms” geografiskt kunde förutspå utbrott av influensa i USA. Efter att initialt ha fungerat med 97% träffsäkerhet så störtdök noggrannheten 2011. Eftersom det inte fanns någon tydlig analytisk modell utöver en avskalad matematisk formel, så gick det inte att varken förutspå att detta skulle ske eller enkelt ta reda på varför det skedde. Undersökningar efteråt har visat att bland annat tv-program som har sänts har påverkat mängden sökningar på influensasymptom.

Big data är ofta inte vad vi tror att det är

Det finns egentligen inte någon tydlig eller etablerad definition av vad Big Data innebär, mer än att det är så pass stor mängd information att den ska vara svår att behandla på ett enkelt och tidseffektivt sätt. Så var går gränsen mellan Big data och Inte så Big data? Klart är att det är en över tid väldigt glidande skala. Det som för bara för några år sedan var sjukt mycket data är inte längre det; om 20 Terabyte lagring år 2010 kändes som något som borde ligga på datorrack i en serverhall, så får det idag plats i en liten låda på skrivbordet.

Exempelvis tänker sig många kanske att Internet, eller mer specifikt World Wide Web, är ett exempel på Big data. Googles främsta uppgift är att låta oss söka på webben och de är ju ett Big data-företag, eller hur? De har publicerat många artiklar och även föreläsningar på YouTube om hur allting kring sökteknologin hänger samman. Enligt dem själva indexerar man ungefär 30 biljoner enskilda sidor[1]. Hur väl detta stämmer är svårt att avgöra utan insyn i företaget, men det finns förstås andra siffror man kan jämföra med. Enligt VeriSign[2], som har det övergripande ansvaret för alla domäner, finns det ungefär 300 miljoner registrerade domännamn i världen. Låt oss säga att hälften av dem används aktivt, inte är spam och inte pekar någon annanstans. Det skulle i så fall betyda att varje domän (allt från 0-0-0-0.com till ockelbonytt.se) i snitt skulle ha 200 000 undersidor. Som jämförelse har aftonbladet.se, Sveriges mest besökta site som uppdateras med massvis av material dygnet runt, ungefär 500 000-1 miljon undersidor lite beroende på vem man frågar. Det finns också andra källor, som exempelvis frivilligprojektet Common Crawl[3] vars nedladdningsbara avscanningar av webben är på knappt 2 miljarder sidor, eller WorldWideWebSize[4] som med en egen metod uppskattar webben till minst 4,7 miljarder sidor, men möjligen upp till 45 miljarder.

Sannolikt är alltså den totala webben under gränsen till vad som skulle kunna kallas för Big data år 2015. Analyser av några miljarder dokument i en databas är inte mycket att skryta med på en Data Analytics-konferens nuförtiden. Vad skulle det istället kunna vara som gör att vi kan kalla Google för en Big data-aktör?

 

Varje månad görs över 100 miljarder googlingar. Vi kan utgå från att allting kring dessa registreras. Google sparar med all säkerhet undan din IP-adress, namnet på ditt operativsystem, versionen på din webbläsare, koordinater för var på sidan du klickat, hur hög upplösning din skärm har, exakt tid för alla händelser och mycket, mycket mer. Det är inte alls orimligt att Google sparar mer än 100 datapunkter per sökning och sedan associerar den informationen med en cookie så att de får en komplett profil för dig. Profilen används sedan för att kunna visa reklam som är så anpassad för dig som möjligt. De behöver därmed analysera data som växer med över 10 biljoner nya datapunkter i månaden.

Det närmsta man kommer Big data när man driftar en sökmotor är alltså att lagra och analysera våra beteenden och personliga preferenser för att visa så effektiv reklam för oss som möjligt, snarare än att lagra och söka i själva webbsidorna. (Om detta har de dock inte lagt upp några föreläsningar på YouTube.)

Referenser:

http://venturebeat.com/2013/03/01/how-google-searches-30-trillion-web-pages-100-billion-times-a-month/

http://www.verisign.com/en_US/innovation/dnib/index.xhtml?loc=en_US

http://www.commoncrawl.org

http://www.worldwidewebsize.com

Josef Falk, Business Intelligence-projektledare, Enfo Pointer

Läs Josefs tidigare inlägg

  • Att mäta sig till framgång »

Blogginlägg relaterade till detta ämne

  • Från big data till petit data »
  • En Hadoop med extra allt på, tack! »