364
UTFORSKA vad vi kan och gör
UTFORSKA vad vi kan och gör

Stäng

Kompetensområden

Kontakta mig

Vill du veta mer och ta reda på hur vi kan hjälpa just dig? Lämna dina kontaktuppgifter

Valdation:
* Förnamn:
* Efternamn:
Företag:
Tel:
* Email:
Land:
* Meddelande:
Successfully sent!
Could not send the mail, try again later!
KAFFE ELLER TÉ? Vi kan väl ses över en kopp.

Blogg oktober 09, 2015

En Hadoop med extra allt på, tack!

Sammanfattning

Mängden information som produceras dygnet runt är monumental och den fördubblas var tolfte månad. Någonstans på vägen så går man in i väggen både affärsmässigt – man vet knappt vilka frågor man behöver ställa för att driva sin verksamhet framåt – och tekniskt – hur skall vi ens få grepp om all den information vi har tillgänglig?

Vilka verksamhetskrav ligger bakom behovet av ett Big Data-projekt och hur tar man sig dit? Vilka faktorer påverkar resan på väg mot ökat affärsvärde?

Det enkla svaret för faktorer är volym och variation. Att tämja de två djuren kräver olika parallelliseringstekniker, där Hadoop och Microsoft APS är två alternativ bland flera.

Nyfiken? Läs gärna vidare.

Hadoop. Hadoop, Hadoop. Hadoop? HADOOP! Hadoop, Hadoop, Hadoop; Hadoop!? Hadoop! Hadoop, Hadoop, Hadoop. Hadoop. Hadoop. Hadoop Hadoop Hadoop Hadoop Hadoop.

Det går bevisligen att göra som George RR Martin och ägna ett helt kapitel åt ordet ”Hodor” men som blogginlägg betraktat så kanske det inte smäller lika högt. Återstår att se, carry on.

Hadoop alltså. Alla pratar om det, alla behöver det, alla ”gör” det. Eller?

Det är inte många buzzwords som har fått sådant genomslag som Big Data; oavsett företagsstorlek, bransch och användningsområde, så finns det alltid närvarande, alla har någon relation till det. Däremot är inte alla säkra på om de ”gör” det. Och om de nu ska ”göra” det, då måste de ha Hadoop. Tror dom.

Big Data är lite missvisande; när är en informationsmängd tillräckligt stor för att få den etiketten? Hur ska det då relateras till att datamängden i världen fördubblas var tolfte månad? Är den datamängd vi har idag Not-So-Big-Data jämfört med Really Big Data som kommer 2016? Ja, det är en rätt oanvändbar beskrivning men ändå sitter den fast i vårt dagliga språk.

Vi kan nöja oss med att konstatera att Big Data rent konceptuellt handlar om att du har fett mycket data. Så mycket data att du inte vet vad du ska göra av den. Du fäktar förgäves med din USB-sticka mot den tsunami av dataflöden som skapas från ERP-system, sociala medier, appar, onlineannonser och olika sensorer på lastpallar, i dörrar, hissar och kläder.

Inte bara fäktar du förgäves, om du lyckas tämja besten med att lagra all data, ja då skall du kunna få den användbar också. Något mer detaljerat så skall lagring, strukturering och presentation hanteras. Helst ska det inte kosta för mycket och det ska gå fort.

Och datamängden dubblas om tolv månader.

Problematiken kan summeras i två saker – Variation och Volym. Variationen i antalet informationskällor skapar ett virrvarr av krav på lagring, tolkning och hur varje del ska – eller om den ens kan – relateras till något annat. Volymen är den enklare faktorn – hur mycket information strömmar det in rent storleksmässigt. Dessa två i kombination? Dags att plocka fram det tunga artilleriet!

Vilka alternativ står då till buds för att uppgradera USB-stickan till Excalibur? Angreppsättet från de stora leverantörerna är parallellisering – gör så mycket som möjligt, så samtidigt som möjligt, så ofta som möjligt.

Hadoop är ett sätt att åstadkomma parallellisering men det finns också andra alternativ. Exempelvis produkterna Exadata (Oracle), APS (Microsoft) och Watson (IBM) m fl. Dessa har lite olika syften och för- och nackdelar.

Värt att notera är att Hadoop inte är en produkt som kan köpas på Dustin i kartong, utan ett ekosystem med olika delar baserat på ett open source-projekt från Apache. Generellt pratar man om Hadoop-distributioner, d v s olika paketeringar av Hadoop-ekosystemet med egna tillägg och kompletteringar, från bland annat Hortonworks och Cloudera.

Innan beslutet tas om att parallellisering behövs så måste först frågan kring syfte lyftas. Vad är det exakta affärsbehovet? Om det är ett reellt behov eller inte kan relativt enkelt kopplas till Variation och Volym. Ett urval av affärskritiska verksamhetsfrågor som skapar enorma utmaningar och troligen leder till en parallelliseringsfrågeställning är:

  • Vilka produkter har enskild kund köpt det sista året, i vilka butiker och med vilka rabatter? Vilka produkter köpte andra kunder med liknande inköpshistorik?
  • Vilka sensoriska mätningar har genererat värden utanför förväntat intervall, vilka underleverantörers produkter var aktuella i batchen, när köptes de in och vilka andra produkter har samma komponenter i sig?
  • Vilka kunder skriver om oss på sociala medier, vad skriver de och vilken påverkan har aktiviteten på försäljningen för enskild kund och för kundgruppen som helhet?

”Vi kör!” säger någon med plånbok. Mot Excalibur! Hurra! Alla blir glada! Verksamheten blir glad, hårdvaruleverantörerna blir glada och såklart blir vi konsulter glada!

Men sen då?

Vilket spår bör kunden välja? Fyrfältare är alltid bra, nästa lika bra som piecharts.

Det är viktigt att poängtera att höga Volymer i de här fallen är väl tilltagna. Hadoop har en bortre gräns på Exabyte (EB) och APS et al har Petabyte (PB) som gräns. Eller ett par triljoner bytes, give or take… I de flesta fall så räcker det alltså gott och väl. Hadoop har en teknisk lösning som gör lagringen billigare och har bra prestanda i databearbetning. APS et al har istället en något dyrare lagring men å andra sidan har en bra prestanda när en användare gör sina analyser.

Sådär. Vi har valt en grundplattform utifrån vårt affärsbehov. Då återstår den lilla detaljen som Powerpoint så väl döljer – implementationen.

Vägen framåt härifrån med ett Hadoop-spår har som största utmaning att hitta Hadoop-tekniker som kan bygga och konfigurera hårdvaran samt att det faktum att Hadoop enbart pratar Java-kod vilket gör att en existerande BI-lösning måste skrivas om nästan från grunden. APS et al har idag en djupare kompetenspool att välja från, vilket gör det hela något enklare, även om det krävs viss specialistkompetens även i dessa fall. Sedan får man räkna med 3-12 månaders hårt arbete.

Finns det verkligen inte någon enklare väg framåt?!?

Jo, det gör det. Både Hadoop och APS et al finns idag som molntjänster.

Clouderas Hadoop-distribution är ett exempel. Microsofts molnplattform Azure har både Hadoop-distributionen från Hortonworks och Microsofts egen parallelliseringslösning APS tillgänglig, den senare under namnet Azure Data Warehouse.

Att snurra upp ett Hadoop-kluster med Hortonworks i Azure, till och med i en hybridlösning med Azure Data Warehouse, tar ungefär 20 minuter! Då har du allt du behöver för att börja fylla molnet med all data du kan tänka dig. En blixtrande snabb start på ett Big Data-projekt!

Det fina med den nämnda hybridlösningen är att det går alldeles utmärkt att blanda informationsmängder oavsett var de råkar finnas rent fysiskt, vilket inte alltid är självklart med alla leverantörers erbjudanden. Detta fungerar tack vara Microsofttekniken Polybase som medför att Hadoops komplexitet hanteras nästan sömlöst och Hadoops Java-beroende ”försvinner” en smula i ett rosa glitterskimmer. Synnerligen snyggt!

Så vad väntar du på? Nu kör vi!

Magnus Hagdahl, Senior Business Intelligence & Data Warehouse Architect, Enfo Pointer

Läs fler av Magnus blogginlägg:

Kranvatten i köket eller en egen slang från sjön »

Power BI Nyheter och Mobilitet »