BI is een overkoepelende term waarmee applicaties, infrastructuur en hulpmiddelen, en aangeraden werkwijzen worden bedoeld, die als doel hebben om gegevens beschikbaar te stellen ten einde de juiste beslissingen te kunnen nemen op basis van correcte, betrouwbare informatie.
BI is dus in feite een parapluterm waar heel erg veel onder kan vallen. De belangrijkste delen van deze omschrijving zijn de woorden:
BI draait namelijk om het beter in staat zijn beslissingen te nemen op basis van informatie. Voordat iets informatie is, zijn het alleen nog maar gegevens. Deze gegevens worden informatie wanneer deze gebruikt kunnen worden in de besluitvorming. Een andere omschrijving van BI is Making Better Decisions Faster. BI draait er namelijk om de mensen in een organisatie beter in staat te stellen hun werk te doen. Wanneer zij goed geinformeerd worden zullen ze beter besluiten nemen; daarnaast moet die informatie tot hun beschikking staan op het moment dat ze het besluit moeten nemen.
De BI-oplossing bestaat uit de volgende componenten:
BI draait om mensen en de beslissingen die zij nemen. Hierbij is gelijk duidelijk dat BI niet van ICT is. Het gevaar zit namelijk niet in het feit dat ICT een rol speelt, maar dat hun rol zo groot en dominant wordt, dat het een project van alleen ICT afdeling wordt. Oftewel ICT is slechts een middel om tot het doel te komen. Het doel van BI is voornamelijk: competitief voordeel behalen en organisaties slimmer te kunnen laten werken.
Wanneer een BI oplossing niet in de juiste informatie voorziet bij het maken van de juiste beslissingen is het project mislukt. Ook als de BI oplossing niet gebruikt wordt is het project mislukt. Om ervoor te zorgen dat mislukte projecten zo weinig mogelijk voorkomen, moeten de eindgebruikers vanaf het begin betrokken zijn.
BI is voor iedereen. Het is zowel interessant voor grote als voor kleine bedrijven. Het is in elke branche interessant. Binnen een bedrijf biedt het meerwaarde aan alle soorten functies, van hoog tot laag.
In vroegere implementaties, toen de term BI nog niet in zwang was, werd er voornamelijk gesproken over Decision Support Systems (DSS).
Vroeger werd er gesproken van Decision Support Systems (DSS). De informatie die uit dit system kwam, was vaak hoog geaggregeerd. De informatie die eruit kwam was voornamelijk stuurinformatie voor het hogere management in de organisatie. Tegenwoordig is de informatie beschikbaar voor alle lagen binnen de organisatie, want iedereen binnen de organisatie moet wel eens een beslissing nemen.
Binnen een BI-project zul je 2 zaken minimaal moeten overwinnen:
Self Service BI, waar de gebruikers zelf hun benodigde informatie maken, kan hierbij helpen. Informatieanalyse is het achterhalen wat de behoeftes, wensen en eisen van de beoogde eindgebruikers van een systeem zijn. Een veelgebruikte informatieanalyse techniek is voeren van interviews. Je moet hierbij wel open vragen stellen. Wanneer je vragen stelt tijdens interviews is het heel goed mogelijk dat mensen vinden dat er geen problemen zijn. De redenen waarom mensen zo reageren kunnen het volgende zijn:
Met Self Service BI is het mogelijk om mensen wel over te halen om nieuwe zaken uit te vinden. Laat de gebruikers zelf beginnen, voordat je vragen gaat stellen. Een ander probleem wat ook kan ontstaan is het moment waarop de oplossing door de gebruikers toegepast gaan worden. Sluit alles nog wel aan bij de eisen van de gebruikers? Dit zijn zaken waar je ook rekening mee moet houden. Self Service BI draait om het in staat stellen van eindgebruikers om zelf in hun informatiebehoefte te voorzien zonder anderen te vragen oplossingen voor ze te bouwen ten einde de juiste informatie op het juiste moment ter beschikking te hebben.
BI gaat erom de mensen binnen een organisatie beter hun werk te laten doen, waarmee de organisatie als geheel beter wordt. Goede, accurate, tijdige informatie kan het verschil maken tussen succes en faillissement. BI is iedereen in een organisatie op het juiste moment van de juiste informatie te voorzien met als doel competitief voordeel te behalen door verbeterde besluitvorming te realiseren
Een DWH is een centrale database gevuld met gegevens uit 1 of meer aparte bronnen met als doel het maken van rapportages en het doen van data-analyse. Een aantal voordelen van een DWH zijn:
Het ETL proces zorgt voor de juiste vulling van het DWH en daarmee wordt de kwaliteit van de rapportages geborgd die je maakt en de analyses die je doet. ETL staat voor Extract, Transform, Load:
In de praktijk zullen gegevens altijd eerst in een aparte laag, staging database, gezet worden. Dit wordt de staging area of staging database genoemd. Een staging database is een database waarin gegevens tijdelijk worden opgeslagen tijdens het ETL-proces alvorens deze worden overgehaald naar het DWH. Vaak zal er nog een laag van datamarts tussen de lagen worden gemaakt. Een datamart is een deelverzameling van een DWH die specifiek voor een deelgebied van de te maken rapportages wordt gemaakt. Naast staging is ODS, Operational Data Store, ook een veel gebruikte term. Een ODS is de eerste plek waar gegevens landen nadat ze uit het bronsysteem zijn gehaald. Het is een soort staging database.
Soms kan het gebruik van een DWH niet voldoen aan alle wensen van een organisatie. Er kunnen een aantal problemen optreden zoals:
Door gebruik te maken van semantische modellen kunnen deze problemen verholpen worden. Een semantisch model is een abstractielaag die betekenis geeft en verbanden toevoegt aan de gegevens in een database. Een kubus is een semantisch model.
Datamining is het gericht zoeken naar (statistische) verbanden in gegevensverzamelingen met als doel profielen op te stellen voor wetenschappelijk of commercieel gebruik. Datamining gaat om patroonherkenning. Die patronen kunnen verschillende toepassingen dienen.
Machine Learning is een toepassing van AI waarmee systemen automatisch leren op basis van ervaring (gegevens uit het verleden) zonder expliciet geprogrammeerd te worden.
Een DWH is een relationele database. De tabellen en gegevens worden beheerd door een RDBMS. Het levert veel voordelen op rond beheer en consistentie van gegevens. Big Data refereert aan een dataset waarbij voorgaande een issue wordt. Er zijn 3 kenmerken van Big Data die hiermee te maken hebben. Deze zijn:
Big Data refereert aan een dataset waarbij de hoeveelheid van gegevens, de snelheid waarmee die verwerkt moeten worden en/of hun diversiteit een probleem worden als de gegevens op een klassieke manier worden behandeld.
BI wordt als een volwassen kerncompetentie beschouwd. Lang niet in alle organisaties wordt BI als een kerncompetentie gezien. Bedrijven gebruiken een volwassenheidsmodel om te bepalen hoever ze zijn in het BI proces. Het model bestaat uit de volgende fases:
Wanneer een bedrijf in de ontwikkelde fase komt, is het verstandig om gebruik te maken van een Business Intelligence Competence Center. Een BICC is een speciaal multidisciplinair team dat zich volledig richt op het doen van BI binnen de organisatie.
Van kritiek belang van elke BI-implementatie is de acceptatie door de eindgebruikers.
BI bestaat uit 4 fases die continu in elkaar overlopen. De BI Life Cycle bestaat uit de volgende fases:
Door het volgen van de BI Life Cycle ontstaat er ook een probleem. Want door het succes van het DWH kan het DWH outdated worden. Daarom is het slim om gebruik te maken van Agile BI. Agile BI refereert aan het gebruiken van Agile softwareontwikkelmethodieken om snel en gemakkelijk te kunnen inspelen op veranderende behoeften vanuit de organisatie.
Om de ambtie van een organisatie te kunnen inschatten wordt gebruik gemaakt van de BI Maturity Matrix. Deze dient 2 doelen, het bepalen waar men nu staat en bepalen wat de ambities ten aanzien van BI zijn. Wanneer beide punten duidelijk zijn, kan er een roadmap gemaakt worden dat ertoe leidt dat de ambitie gerealiseerd gaat worden. Het hoogste ambitieniveau is het behalen van een intelligente organisatie. Informatie en vooral het gebruik van informatie is een integraal onderdeel geworden van de organisatie. De organisatie leert en past zichzelf aan. Innovatie is een belangrijke drijfveer/ambitie. In de intelligente organisatie is BI het gewone werk geworden en is BI van duur project verworden tot kerncompetentie.
De eerste stap bij het implementeren is het bepalen van het doel. Deze moet bepaald worden voor 3 verschillende niveaus:
Wanneer iets besloten wordt op het gebied van BI moet aan de volgende aspecten gedacht worden:
Naast scope, doelen en infomatiebehoefte zijn er nog aspecten als bronnen, architectuur en organisatie.
Om vast te stellen welke onderdelen binnen de scope van een BI-project vallen, wordt er gekeken naar de aspecten complexiteit en meerwaarde (subject area analysis). Weinig meerwaarde in combinatie met een hoge complexiteit (kleinere kans van slagen) is de minst aantrekkelijke combinatie. Onderdelen met veel meerwaarde en een geringe complexiteit genieten de voorkeur.
De doelgroep zijn de gebruikers. Bill Inmon definieert 4 soorten gebruikers:
Bij meetwaarden denken we aan KPI's. Dit zijn kritieke prestatie indicatoren. Een indicator laat in 1 opslag zien of het goed gaat met een bepaald proces. Deze indicator bestaat uit 4 componenten, namelijk meetwaarde, doelstelling, status en trend. De status en de trend geven resp. de afwijking van het doel en het inzicht in de situatie van de vorige periode.
De Balanced Scorecard (Kaplan): het succes van een bedrijf wordt bepaald door meerdere factoren die onder te verdelen zijn in 4 deelgebieden of perspectieven:
Een groot deel van een BI-project is ICT gerelateerd. De IT-componenten van een BI-project, zijn slechts een middel om het grotere BI-doel te realiseren. De belangrijkste consequentie van het feit dat een BI-project geen ICT-project is, is dat er niet IT mensen lid moeten zijn van het projectteam. De beoogde eindgebruikers van BI-oplossingen moeten vanaf het begin betrokken worden bij elk BI-project. Bij elk project zijn er een aantal vaste rollen:
De data steward is diegene met inhoudelijke kennis van zaken.
Gevaren van een ICT-project: nadruk teveel op de technische kant, dus een benadering vanuit ICT en niet vanuit de organisatie, kan leiden tot:
De informatieanalyse is het proces waarin je achterhaalt wat de doelen zijn en wat de benodigde behoeften zijn om die doelen te realiseren.
Als je een grondige informatieanalyse hebt gedaan, heb je waarschijnlijk een lange lijst van eisen en wensen. Het is niet aan te raden om alles in 1 keer op te pakken. Beperk de scope van het initiele project. Dit heeft namelijk 2 voordelen:
BI is dus een continu proces en geen eenmalig project. Een succesvolle BI implementatie zal veel technische aspecten bevatten. Deze technische componenten zijn alleen ondersteunend aan het proces en moeten nooit een doel op zich worden.
BI moet onderdeel zijn van de dagelijkse werkwijze van mensen. Het is een onderdeel van de cultuur van een bedrijf.
In veel BI-implementaties wordt gebruik gemaakt van datamarts en datawarehouses. Ze vormen daarmee wel een belangrijke component van de meeste BI-oplossingen.
Een DWH is een centrale database gevuld met gegevens uit 1 of meerdere aparte bronnen met als doel het maken van rapportages en het doen van data-analyse. Het is een relationele database. Dat wil zeggen dat de informatie opgeslagen is in de vorm van tabellen. Een DWH is de "single version of truth". Om ervoor te zorgen dat het DWH gebruikt wordt voor rapportages en analyses, moet ervoor gezorgd worden dat alles wat van belang is erin zit en dat iedereen altijd alleen het DWH gebruikt voor het verkrijgen van informatie. De gegevens die je beschikbaar hebt om te gebruiken, bij het vullen van de DWH, zijn vaak onvolledig en van slechte kwaliteit. De volledige waarheid is daarmee misschien buiten je bereik, zolang de organisatie de informatie maar vertrouwd en stuurt als de versie van de waarheid.
Single version of truth: dat bedrijfsregels zoals dat omzet wordt gerekend op de dag dat de factuur betaald wordt en niet op de dag dat de order geplaatst is, vastgelegd zijn in het DWH.
Je maakt gebruik van een DWH vanwege de mogelijke problemen die kunnen ontstaan als je rapporten en analyses maakt direct op het bronsysteem.
Het is wel zo dat een DWH NIET de basis hoeft te zijn voor elke BI-oplossing.
Een DWH lost de volgende problemen op:
Operationele databases zijn geoptimaliseerd voor een OLTP workload. OLTP staat voor Online Transaction Processing, waarbij het gebruik van de database zich kenmerkt door veel kleine acties waarvan een relatief groot aantal van die acties wijzigingen betreft.
Databases die een OLTP workload ondersteunen, worden in meer of mindere mate genormaliseerd. Normaliseren van een database voorkomt redundantie en vergroot de consistentie van de gegevens. Voordelen zijn dat de kans op fouten kleiner wordt en dat de database in z'n geheel kleiner blijft. Het schrijven in een database gaat sneller als er minder redundantie in zit. Een alleen lezen workload wordt ook wel een OLAP workload genoemd, OLAP staat voor Online Analytical Processing, waarbij het gebruik van de database zich kenmerkt door voornamelijk lezen. Normaliseren geeft geen voordeel bij een OLAP workload. Een nadeel van normaliseren voor OLAP is dat de benodigde queries moeilijk en traag worden. Wanneer grote hoeveelheden gegevens nodig zijn, zijn genormaliseerde databases slecht voor de performance. Met het bouwen van een DWH heb je de mogelijkheid de gegevens op te slaan in een structuur die geschikt is om snel en adequaat informatie uit een database te lezen.
Normaliseren heeft een aantal effecten:
Voor datawarehousing is normaliseren een voordeel omdat de tabelstructuur ongewijzigd kan blijven.
Belangrijk voor de performance is de gekozen index-strategie. Er zijn 2 hoofdvormen:
Een datamart of een rapportagedatabase kan indexen bevatten die speciaal voor rapporten en analyses zijn gemaakt. Dit levert verbeterde performance op t.o.v. de bronsystemen en daarmee betere acceptatie.
Indexen maken de database wel groter, maar niet per definitie sneller.
Veel joins in queries hebben tot gevolg dat de performance van de queries zakt. Daarnaast gaat er vaak tijd verloren tussen het ontstaan van een informatiebehoefte en het invullen daarvan. Dit kan opgelost worden door gebruik te maken van Self Service BI. Om dit te laten slagen hebben mensen de juiste tools nodig en de gegevens moeten op een begrijpelijke manier aangeboden worden. Om dit laatste voor elkaar te krijgen kan er gebruik worden gemaakt van datamarts, deze bieden gebruikers informatie aan in een voor de gebruiker begrijpelijke eenvoudige vorm.
Als we daadwerkelijk sneller bij de gewenste informatie willen komen, moeten we de mensen die informatie nodig hebben ook in staat stellen bij die informatie te komen. Daar zijn minimaal 2 zaken voor nodig:
Datamarts bieden informatie aan gebruikers aan in een voor de gebruiker begrijpelijke eenvoudige vorm.
Door het maken van rapportages en analyses gaat de performance van de operationele applicaties achteruit. Er kunnen 2 problemen ontstaan:
CPU, maar ook geheugen en storage kunnen een probleem worden. De meeste database systemen proberen zoveel mogelijk gegevens in het geheugen te houden. Grote gegevensverzamelingen kunnen voor het OLTP proces belangrijke gegevens uit het geheugen verdringen waardoor het OLTP trager wordt. Er is een gerede kans dat een BI workload een bottleneck veroorzaakt op de databaseserver als je niet een aparte server inricht voor BI processen.
Een SAN (Storage Area Network) is een populair opslagmedium dat veel gebruikt wordt voor databases.
Concurrency is het tegelijkertijd werken op de database. Rapportages en analyses kunnen grote impact hebben op de performance van operationele processen. De rapportages en analyses loslaten op een DWH lost dit probleem op.
Concurrency levert problemen op indien rapporten zijn gebaseerd op OLTP databases:
De kwalitiet van de gegevens is slecht. De informatie die in de database gezet wordt kan verschillende kwaliteitsproblemen hebben.
Dubbele records in operationele systemen leiden tot foutieve resultaten tijdens analyses. Doordat een DWH gecontroleerd gevuld wordt door zorgvuldig geteste processen, is het voorkomen van dubbele gegevens in de datawarehouses makkelijker dan in operationele databases.
In operationele databases ontbreken soms gegevens die voor analyse van belang zijn. Tijdens het vullen van een DWH kan dit gedetecteerd worden en kunnen ontbrekende gegevens worden aangevuld of expliciet gekenmerkt worden als onbekend.
Bepaalde programma's helpen om foutieve gegevens tijdens het laden van het DWH op te sporen en automatisch te verbeteren.
Standaardapplicaties geven de vrijheid om voor een organisatie inconsistente informatie op te slaan in de database. Een DWH lost deze inconsistenties niet meteen op. Tijdens het laden van het DWH komen ze waarschijnlijk wel aan het licht. Er ontstaat dan een keuze hoe hiermee om te gaan.
Informatie uit verschillende databases komt niet overeen. Een bedrijf heeft vaak meer dan 1 database. Als 2 verschillende systemen dezelfde cijfers zouden moeten geven, zal er in de praktijk vaak een verschil tussen beide systemen te zien zijn. Een centrale DWH zorgt voor het gebruik van 1 centrale definitie van termen. Het is van groot belang om tijdens de informatieanalyse te achterhalen of er meer dan 1 definitie gebruikt wordt binnen de organisatie. Eenduidigheid van definities en gegevens is van cruciaal belang voor BI-oplossingen.
Geschiedenis gaat verloren. Wanneer veranderingen optreden, heeft men te maken met Slowly Changing Dimensions (SCD). SCD's hebben betrekking op veranderingen die optreden in de loop van de tijd; het gaat hierbij dan om attributen van dimensies die in de tijd veranderen. Operationele databases houden vaak geen historie bij met betrekking tot wijzigingen. In een DWH kun je dit wel doen. Datawarehouses bieden daardoor uitgebreidere analysemogelijkheden dan operationele databases.
Dimensioneel modelleren is een manier van database ontwerp, die poogt deze tekorkomingen weg te poetsen. Uitgangspunt is dat de database een voornamelijk alleen-lezen workload (OLAP) krijgt. Dimensioneel modelleren leidt tot een database met een zogenaamd stermodel. Een datamart is een database waarvan de tabelstructuur een ster vormt en die 1 proces uit de organisatie beschrijft. In de theorie van Kimball bestaat het DWH uit de verzameling van alle stermodellen die tezamen de processen in de hele organisatie beschrijven. Een stermodel is voor een vakinhoudelijk deskundige een gemakkelijk te begrijpen, en daarmee te gebruiken model. Een stermodel bestaat uit 2 soorten tabellen:
Een andere definitie datamart (Inmon methodiek): een database, die gevuld wordt vanuit het DWH, met als doel specifieke rapportages en analyse mogelijk te maken.
We onderscheiden 4 hoofdstappen om tot een stermodel te komen.
Laat altijd de wensen en de eisen van de gebruikers leidend zijn in je opzet.
To Slice and Dice staat voor het maken van willekeurige doorsnedes door de feiten. Een attribuut is een kenmerk van een dimensie, ofwel een kolom in de dimensietabel. Alles waarop gefilterd of geaggregeerd moet worden, moet een attribuut zijn van een dimensie. Nadat je de relevante dimensies hebt onderkend, is het zaak zo veel mogelijk relevante beschrijvende elementen van deze dimensies te benoemen.
Bijna alle datawarehouses hebben een datumdimensie, omdat de tijd een belangrijke rol speelt in ons leven. Er is een aantal redenen waarom datumdimensies veel meerwaarde hebben in datamarts:
Bij het bouwen van een datumdimensie moet je op het volgende letten:
Er zijn een aantal zaken die belangrijk zijn bij het maken van dimensies:
Waarom is het aan te raden een datumdimensie te gebruiken terwijl alle kolommen die er in staan (zoals jaar, kwartaal, maand etc.) te berekenen zijn uit de transactiedatum:
In operationele databases is er een gebrek aan historische gegevens. Dit wordt door Kimball beschreven als Slowly Changing Dimensions (SCD). Hier zijn een aantal oplossingen voor. De term SCD refereert aan het feit dat attributen van dimensies in de loop van de tijd kunnen veranderen en draagt standaardoplossingen aan voor hoe hier in het DWH mee om te gaan.
SCD type 1: de oude waarde van een attribuut wordt overschreven door de nieuwe, actuele waarde. De waarde van het attribuut wordt niet historisch bijgehouden.
SCD type 2: bij elke verandering van een attribuut wordt een volledig nieuw record aangemaakt. Er bestaan 'actuele' records en 'afgesloten' records.
SCD type 3: je houd van een attribuut in 2 verschillende kolommen zowel de huidige als de vorige waarde bij. Op die manier kunnen huidige en vorige waarde gemakkelijk vergeleken worden.
Een snowflake is een stermodel waarvan 1 of meer dimensies niet zijn platgeslagen maar zijn genormaliseerd. Soms is het wel nuttig om te normaliseren:
Deze zijn:
Uit de informatieanalyse zijn indicatoren of zelfs KPI's naar voren gekomen. Daar wordt een organisatie op gestuurd. Dat zijn feiten, en die zijn over het algemeen numeriek en meestal aggregeerbaar. De feitentabel in het sterschema is de centrale tabel in het midden. Er zijn verschillende soorten feiten:
Daarnaast zijn er nog verschillende soorten feitentabellen. De meeste feitentabellen zijn als het ware registraties van wat er is gebeurd:
Een Inmon-DWH is een genormaliseerde database. Dat betekent dat het is gemodelleerd op basis van verbanden tussen gegevens die stabiel zijn in de tijd in plaats van veranderlijke processen. Bij een DWH volgens Inmon wordt het DWH alleen gebruikt om datamarts te vullen, het wordt niet gebruikt als bron voor rapporten of analyses. De Corporate Information Factory is het geheel van componenten van stagen database tot en met datamarts dat ervoor zorgt dat gegevens uit operationele systemen omgevormd worden tot informatie voor de medewerkers van een organisatie.
De Kimball-methodiek maakt een iteratieve projectaanpak met kleine stappen en snel opleveren van resultaten mogelijk. De Inmon-opzet van een DWH dwingt je eerst het hele DWH te ontwerpen. Dit is moeilijk te rijmen met de tegenwoordige geprevaleerde iteratieve manier van werken.
Samengevat kun je zeggen dat de Kimball-methode gemakkelijker is in de uitvoering van het project. Het is eenvoudig een kleine scope te kiezen. Daardoor kun je snel resultaten opleveren. Bovendien vergroot je de kans op succes. Het nadeel is dat het moeilijk kan zijn het DWH mee te laten groeien met veranderende eisen en wensen van de eindgebruikers.
De Inmon-methode levert een in de tijd gezien stabieler DWH op. Een bedrijf kan langer profiteren van zijn investering. De grote uitdaging zit in het bepalen van de scope en het klein houden van je projecten.
Data Vault probeert het beste van beide aanpakken te combineren.
Data Vault is een verzameling gekoppelde tabellen die gedetailleerde en historische informatie bevatten van 1 of meer processen. Het is een mix tussen normaliseren en dimensioneel modelleren. Later kan deze structuur uitgebreid worden. Gebruikers rechtstreeks op een Data Vault-structuur laten werken is dan ook een slecht idee. De datamarts bevatten de informatie uit de Data Vault.
Het stappenplan voor het maken van een Data Vault structuur is als volgt:
Andere voordelen data mart zijn:
Data Vault poogt met een generieke tabelstructuur het beste van Kimball en de Inmon-strategie te combineren. Bovendien speelt het in op de krachtiger hardware die we tegenwoordig hebben. Ook houdt het meer rekening met strengere compliance-regels van de laatste jaren.
De argumenten die we gebruikten om Kimball en Inmon te vergelijken waren:
Doordat Data Vault business keys als basis neemt (de hubs) zonder alle bijbehorende rompslomp, ontstaat een stabiel systeem. Data Vault heeft dezelfde (of zelfs grotere) stabiliteit dan een gewoon genormaliseerde DWH. Dat is wat Inmon wel heeft en Kimball niet.
Met Data Vault is het gemakkelijk om iteratief te ontwikkelen. Je kunt klein beginnen en dus met een beperkt budget. Hiermee kun je dus ook snel resultaten aan de organisatie laten zien. Van daaruit kun je het DWH en daarmee de totale BI-oplossing uitbouwen. Dit is wat Kimball wel heeft en Inmon niet.
In organisaties die in volwassenheidsmodellen hoog scoren, is het DWH de centrale plek om alle relevante gegevens, ongeacht de herkomst, op te slaan. Vanaf hier gaan de gegevens naar de gebruikers. Bij een Kimball-implementatie wordt het DWH zelf gebruikt. Bij Inmon en Data Vault zit er nog een laag van datamarts tussen het DWH en de gebruikers ervan. Het DWH vormt daarmee het fundament van je BI-oplossing
Er is nog nergens gesproken over specifieke keuzes met betrekking tot hardware en software. In dit boek zal ook geen keuze worden gemaakt. Toch is het goed te kijken naar de mogelijkheden op dit gebied en naar enkele zaken die kunnen helpen bij het maken van een keuze.
Elke keuze die men maakt heeft voor- en nadelen. Met andere woorden alle hardware en software heeft zo zijn beperkingen.
Voor de technische keuzes kunnen we Gartner Magic Quadrant gebruiken.
Nadat je een functioneel ontwerp gemaakt hebt, moet het technische ontwerp worden gemaakt. Het FO van een DB betreft de gewenste tabelstructuur alleen rekening houdend met de functionele eisen zoals die naar voren komen uit de informatieanalyse.
Het doel van het TO is om het FO aan te passen aan de werkelijkheid. We kunnen hierbij 2 significante problemen onderscheiden:
Om deze problemen te voorkomen, moet je weten hoe groot de verschillende tabellen gaan worden.
Het belangrijkste is dat je in orde van grootte probeert een inschatting te maken van het aantal records, zowel nu als in de toekomst. Als je ziet aankomen dat een tabel erg groot gaat worden, moet je vooraf nadenken over hoe die omvang te beheren. Sommige tabellen in datawarehouses worden zo groot dat ze onbeheersbaar worden. Als je dat vooraf ziet aankomen kun je maatregelen treffen.
De gemiddelde lengte van de records zijn belangrijk. Om dit te bepalen worden 3 zaken bekeken:
Het datatype van een kolom bepaalt het soort gegevens dat in deze kolom opgeslagen kan worden. Er zijn 3 verschillende datatypes:
Gemiddelde lengte van namen: als je van elk kolom het datatype kent, en als je van alle kolommen de lengte kent, kun je de gemiddelde recordlengte uitrekenen.
Met het toepassen van verticale partionering van snowflakes kun je de problemen voorkomen. Gemiddelde recordlengte en page size zijn belangrijk om in een vroeg stadium te weten zodat je een model kunt maken dat rekening houdt met beperkingen waardoor er later geen performanceproblemen zullen ontstaan. Je moet altijd kijken hoe het functionele ontwerp aansluit bij de eventuele beperkingen van het DBMS en aanpassingen doen waar dat nodig is.
Factoren die effect hebben op de totale omvang. Hierbij moet je denken aan:
Met compressie kun je 2 dingen bereiken:
Het is belangrijk om bij nog meer dingen stil te staan:
Bij de Fast-Track architecturen wordt ervan uitgegaan dat alle componenten vergelijkbare specificaties moeten opleveren voor wat betreft de hoeveelheid gegevens die per seconde verwerkt kunnen worden. Elk component kan de bottleneck zijn en de traagste zal dat zijn.
De Maximum Consumption Rate is de maximale hoeveelheid data die het DBMS per seconde per processor core kan verwerken. Je kan deze meten door een query uit te voeren en te kijken hoeveel data de query ophaalt en wat de query-responsetijd was.
Het aantal processor cores wordt gegeven door de onderstaande formule: $$ A = \frac{\frac{R}{MCR} G}{T} $$ waarbij
Naast de CPU moet je nadenken over:
Een DWH appliance is een geintegreerde set van servers, opslagmedia, operating system, DBMS en andere software speciaal geinstalleerd en geoptimaliseerd voor datawarehousing. Referentie architecturen zijn vooraf gedefinieerde specificaties van hardware opgesteld met ervaring van vergelijkbare DWH projecten uit het verleden.
Er zit een nadeel aan het gebruik van indexen:
Een gemiddelde DWH query gebruikt 10 to 15% van de beschikbare kolommen uit een tabel. Een columnstore index slaat gegevens kolom voor kolom op in plaats van rij voor rij.
Bij compressie wordt de hoeveelheid benodigde opslag kleiner zonder dat er informatie verloren gaat. Maar de gegevens moeten wel gedecomprimeerd worden als ze worden ingelezen en gecomprimeerd als ze worden weggeschreven. De processorbelasting van het serversysteem gaat dus omhoog.
GROUP BY queries vergen veel rekentijd van de server. Een view is een virtuele tabel. Omdat de performance van GROUP BY queries verbeterd kan worden met aggregatietabellen, moet bij de bepaling van de grain van een feitentabel gekozen worden voor een laag aggregatieniveau.
Partionering gaat uit van het idee dat kleine tabellen beter zijn voor de performance dan grote tabellen. Een grote tabel is op te slaan als een verzameling kleine tabellen. Dat kan op 2 manieren:
In dit hoofdstuk wordt geleerd welke extra aspecten van belang zijn om over na te denken voordat je een DWH gaat implementeren.
Ten aanzien van performance is het volgende van belang:
Het volgende is waar met betrekking tot indexen:
Het is noodzakelijk om een TO te maken van je DWH omdat het theoretisch ideale model moet worden aangepast aan de beperkingen van je hardware en software.
ETL staat voor Extract, Transform en Load:
ETL is een groep technologieen die veelal gebruikt wordt bij de koppeling tussen systemen, waarbij er gestreefd wordt naar een minimale technische en semantische koppeling. Het is een batchproces dat regelmatig gebruikt wordt.
Voor het ETL proces zijn er eigenlijk 2 problemen:
Met behulp van Master Data Management kunnen we deze problemen aanpakken. Het betreft een verzameling disciplines en processen die zorgt voor accurate, complete, tijdige en consistente gegevens voor belangrijke entiteiten binnen een organisatie over verschillende databases, afdelingen en landen heen. Een van de voordelen van MDM is het makkelijker voldoen aan compliancy als de gegevens centraal staan met duidelijke regels omtrent eigenaarschap en veranderingen.
Verschillende soorten gegevens die in een database zitten zijn:
Meta data zijn gegevens over de gegevens: gegevens die de gegevens in een db beschrijven, zoals de naam van een kolom en het datatype van die kolom.
Reference data zijn de gegevens in look-up tabellen. Dat kunnen gegevens zijn uit ISO, DIN en NEN, maar ook zaken zoals automerken.
Enterprise structure data zijn gegevens zoals grootboekrekeningen of journaalposten.
Transaction structure data zijn de gegevens die nodig zijn om primaire gegevens over processen te kunnen opslaan.
De transaction activity data en de transaction audit data zijn gegevens die betrekking hebben op de registratie van feitelijke processen.
Master data is de combinatie van reference data, enterprise structure data en transaction structure data. Een voorbeeld van Master Data zijn klant gegevens waar in het ideale geval in een organisatie 1 centrale set wordt bijgehouden die bepalend is voor alle processen.
Master Data Management is een verzameling disciplines en processen die zorgt voor accurate, complete, tijdige en consistente gegevens voor de belangrijke entiteiten binnen een organisatie over verschillende databases, afdelingen en landen heen.
Vanwege de centrale rol van het MDM wordt er ook gesproken over de Master Data Hub.
Compliancy is het voldoen aan (wettelijke) regels en eisen opgelegd door externe partijen zoals overheden en toezichthouders.
Belangrijke zaken voor een goede introductie van MDM in een organisatie zijn:
MDM kan op 3 punten voordelen opleveren:
Het is van belang de scope van ee MDM-implementatie goed te definieren.
Data stewards zijn mensen met inhoudelijke kennis van zaken die verantwoordelijk zijn voor de (kwaliteit van de) gegevens.
In deze paragraaf woordt een voorbeeld uitgewerkt van MDM op basis van MS SQL Server Master Data Servers:
Niet relevant.
Ook hier moet de informatieanalyse leidend zijn bij het nemen van ontwerpbeslissingen. Deze beslissingen hebben betrekking op de volgende onderwerpen:
Aspecten ETL die in de informatieanalyse aandacht behoeven:
Duidelijk is dat de informatiebehoeften (welke informatie moet op welke rapporten beschikbaar komen) stuurt welke kolommen overgehaald moeten worden naar het DWH.
De data latency van een DWH is de tijd die zit tussen het ontstaan van gegevens en het moment dat deze gegevens beschikbaar komen in het DWH. De eisen die hieraan gesteld worden hebben in eerste instantie betrekking op de frequentie van het ETL-proces.
De feiten kunnen achteraf wijzigen. Uit de informatieanalyse moet blijken hoe de ETL hiermee moet omgaan (type SCD, accumulating snapshot feitentabel, peildatum).
Naast historische gegevens in de zin van veranderende gegevens, is het interessant om te weten hoe ver terug in de geschiedenis het DWH of de datamart moet gaan.
Auditing is het toevoegen van metadata aan de gegevens in het DWH zodat is te herleiden wie of welk proces de gegevens wanneer en hoe heeft geladen. In de context van ETL-auditing komt dit neer op het toevoegen van informatie over de ETL zelf aan de gegevens die geladen worden. Door audit-informatie toe te voegen als dimensie aan het DWH, kunnen vragen beantwoord worden als:
ETL is software en bij software moet je nadenken over hoe je wilt omgaan met fout situaties.
Beheerders van ETL-processen moeten weten of de processen hebben gedraaid, of ze succesvol of met een fout zijn geeindigd, wat de totale doorlooptijd van het proces was en misschien nog wel andere zaken.
Daarnaast zijn er nog een aantal factoren die een rol spelen:
Er kunnen grofweg 3 ETL architecturen worden onderkend:
Een staging database is een db waarin gegevens tijdelijk worden opgeslagen alvorens ze worden doorgestuurd naar het DWH.
De voordelen van het gebruik van een staging database zijn:
De belangrijkste eigenschap van 2 staging-lagen is: de landing database lijkt nu qua ontwerp op de bronnen, de staging juist op het DWH. Het vullen van de DWH is nu een kwestie van het 1 op 1 overhalen van de gegevens uit de staging database. Een groot deel van de tijdrovende transformaties vindt plaats tussen de landing en de staging database.
Het voorgaande schetst vooral de logische architectuur. Je moet ook nadenken over de fysieke architectuur. Is elke laag ook echt een aparte database? En zo ja, staat elke database op een aparte server?
Er zijn 2 balangrijke redenen om mappingdiagrammen te gebruiken:
In een mappingtabel kun je in detail aangeven welke kolom uit het bronsysteem op welke manier in het doelsysteem terechtkomt. De mappingtabel bevat typische ETL-informatie. Geef per kolom aan of het een SCD-kolom is, en zo ja, welk type. Verder kun je transformaties invullen. Het resultaat is tegelijkertijd documentatie en input voor de ETL-programmeur. Het enige wat nog moet worden bedacht is: met welke tools en met welke technieken gaan we de ETL implementeren. Daarvoor moeten de bronsystemen nog wat nader worden bekeken.
Er zijn veel verschillende bronnen:
De tool die je kiest om het ETL-proces mee te bouwen, moet in staat zijn deze verschillende bronsystemen te kunnen uitlezen. Vluchtigheid van gegevens en security speelt hierbij natuurlijk ook een belangrijke rol.
Er zijn heel veel tools op de markt met hun sterke en zwakke punten
Een combinatie van een ETL-tool en SQL is vaak het beste:
Er zijn verschillende redenen dat de kwaliteit van de gegevens slecht is:
MDM kan een oplossing zijn als dimensiedata in meer bronnen voorkomt. Hierbij dien je er wel voor te zorgen dat de kwaliteit van de Master Data goed is. Zonder MDM-oplossing moet je bij het laden van dimensies iets met de kwaliteit van de gegevens doen.
Naast het probleem van meerdere bronnen blijkt dat de gegevens zelf inherent slecht zijn van kwaliteit. Soms zijn de gegevens niet meer waar. Er kan immers van alles gebeuren buiten het zichtveld van een organisatie, dat ervoor zorgt dat de gegevens niet meer kloppen.
Soms worden gegevens door mensen ingevoerd en mensen maken fouten
Data Cleansing is het opsporen en verbeteren of verwijderen van inconsistente en foutieve records uit een verzameling, tabel of database.
Data Cleansing is misschien wel de belangrijkste stap in het ETL-proces
Als je de gegevens overhaalt naar een MDM-implementatie of naar datamarts, moet de kwaliteit goed zijn.
Basaal is ETL niets anders dan het kopieren van gegevens van een bronsysteem naar een doelsysteem. In een breder perspectief is het ook het aanpassen van gegevens aan de eisen van het doelsysteem: herleidbaarheid, auditing en compliancy komen dan om de hoek kijken.
Datakwaliteit is belangrijk. Met gedistribueerde systemen is MDM en Master Data een uitdaging. Hierbij geldt het aloude paradigma: garbage in, garbage out.
Er zijn veel tools op de markt ter ondersteuning van het ETL-proces.
Met een kwalitatief goede DWH en/of datamart zijn analisten in staat om goede analyses te doen.
Data Scrubbing is het verbeteren van inconsistenties en incorrecte gegevens.
Master Data Hub: Master Data staat centraal en bronnen worden gesynchroniseerd met de Master Data.
Voordelen automatisch gegenereerde getallen:
Klassieke datawarehouses hebben een aantal tekortkomingen:
Big Data betekent dat het soort gegevens dat je hebt in combinatie met wat je er mee wilt doen, je dwingt te innoveren.
Big Data wordt gedefinieerd door de 3 V's:
Scale-up is het inzetten van een grotere server.
Scale-out is het verdelen van de workload over een cluster van meerdere servers.
In het kader van variety kunnen we de gegevens onder verdelen in 3 soorten:
Bij gestructureerde data is er een schema, een datamodel bekend. Met het schema wordt de metadata bedoeld: de beschrijving van alle kolommen, de datatypes van de kolommen en het domein (de mogelijke waarden) van de kolommen. Met schema-on-write bedoelen we dat de metadata al moet bestaan voordat de gewone gegevens opgeslagen kunnen worden.
Bij semi-gestructureerde data (XML, JSON, log bestanden) is er nog wel sprake van enige metadata maar niet meer zo in ijzer gegoten als bij de gestructureerde gegevens. Met schema-on-read bedoelen we dat we de metadata die gegevens beschrijft pas gebruiken bij het verwerken van de gegevens, niet bij het schrijven (registreren) van die gegevens.
Ten slotte heb je ongestructureerde gegevens. Helemaal ongestructureerd is het nooit. Als je een bestandsformaat weet, heb je al kennis over het soort informatie. Big Data is aanvullend op klassieke BI. Het is geen vervanging van klassieke BI.
Dit heeft betrekking op:
Andere kenmerken van Big Data zijn o.a. Veracity en Value.
Mogelijke vertalingen voor veracity zijn waarheid, echtheid en geloofwaardigheid. De signal-to-noise ratio is de verhouding tussen informatie en de ruis in de data.
Met de value wordt de meerwaarde van gegevens bedoeld, de bruikbaarheid. De waarde wordt onder meer bepaald door vragen als:
BI is langzaam maar zeker aan het verschuiven van een Decision Support System (DSS) dat gebruikt wordt voor hoger management naar een operationeel systeem dat de dagelijkse besluitvorming ondersteunt. Daarmee ondersteunt het direct de primaire processen en geeft het bedrijven de kans beter te functioneren.
Data Analytics is het analyseren van gegevensverzamelingen om besluitvorming te ondersteunen en theorieen te testen.
De ervaring leert dat door het opzetten van datawarehouses en daaraan verwante technieken het proces van Data Analytics het best wordt gefaciliteerd.
Analytics is een werkwijze die een onderdeel moet zijn van de bedrijfscultuur.
Basic Analytics bestaat uit Descriptive Analytics en Diagnostic Analytics.
Descriptive Analytics beschrijft een situatie of proces met getallen waarbij wordt teruggekeken naar het verleden.
Diagnostic Analytics probeert antwoord te geven op de vraag "Waarom iets is gebeurd?"
Advanced Analytics is onder te verdelen in Predictive Analytics en Prescriptive Analytics.
Predictive Analytics berekent de waarschijnlijkheid dat iets zou kunnen gebeuren in de toekomst.
Bij Prescriptive Analytics gaat het om het nemen van beslissingen.
Bij een top-down benadering ga je uit van een bestaande theorie oftewel kennis vooraf. De analyse kan gedaan worden op basis van het DWH of op basis van een semantisch model dat gebaseerd is op het DWH omdat er met voorkennis al rekening is gehouden met de mogelijkheid dat dit soort analyses uitgevoerd gaan worden.
Conformatory analyse gebruikt een top-down benadering om een vooraf gestelde hypothese te bevestigen.
Exploratory analyse is een bottom-up benadering waarbij je probeert zonder beinvloeding vooraf patronen in datasets te vinden.
Het woord analytics omschrijft een breed scala aan handelingen waar vooral het analyseren van gegevens en het communiceren van de resultaten centraal staan. Bij Advanced Analytics wordt in het algemeen gebruik gemaakt van machine learning en datamining.
Datamining is het achterhalen van verbanden, patronen en trends in gegevensverzamelingen.
Machine learning is een techniek die tot doel heeft het doen van voorspellingen op basis van bekende patronen in gegevensverzamelingen.
De nauwkeurigheid waarmee voorspellingen gedaan kunnen worden neemt toe als de gebruikte dataset groter wordt.
Er zijn veel algoritmes waaruit een data scientist kan kiezen bij de verschillende scenario's. Hij zal gedegen statistische kennis nodig hebben om de gegevens te analyseren, de juiste algoritmes te kiezen, de juiste parameters te kiezen en de uitkomsten op de juiste waarde te schatten
Machine learning is een component van analytics. Het doel is om besluitvorming te ondersteunen. Uiteindelijk willen we er competitief voordeel uit halen. En daarmee vormt het een goede aanvulling op BI.
Een Data Lake is een omgeving waar je gegevens verzamelt in hun oorspronkelijke formaat en schema. Meestal gaat het om tekst files en blob files.
noSQL staat voor not only SQL. Het is een term die staat voor alle databaseplatformen die niet relationeel zijn.
Een cluster is een verzameling gekoppelde servers die samenwerken alsof ze een zijn.
Hadoop is een opensource raamwerk van software voor Big Data-toepassingen.
Big Data is een aanvulling op klassieke BI en datawarehousing.
Het gaat hier om vragen op te werpen waar de samenleving als geheel over moet nadenken.
Bij wetgeving dient er nagedacht te worden over het volgende:
Zowel als maatschappij, als ook binnen bedrijven, is het noodzakelijk om stil te staan bij de ethische kant van Big Data Analytics.
Alle nieuwe mogelijkheden zijn aanvullend op wat BI altijd al was.
Het concept cluster is belangrijk bij Big Data oplossingen:
Machine Learning is een onderdeel van Advanced Analytics. Advanced Analytics is geen onderdeel van Big Data omdat deze ook kan worden toegepast op gestructureerde data van niet-extreme omvang.
Het verschil tussen BI en Business Analytics: BI is het kwantitatief inzichtelijk maken van prestaties, Business Analytics beantwoordt het waarom en vertaalt dat naar de toekomst.
De redenen dat Predictive Analytics om een bottom-upbenadering vraagt zijn:
De redenen dat datamining leidt tot verkeerde conclusies zijn:
Om goed, gemakkelijk en snel gegevens te kunnen analyseren zijn datamarts in de vorm van een sterschema uiteindelijk niet toereikend. Waarom voldoet een datamart dus niet? Om deze vraag te beantwoorden kijken we eerst naar 3 eisen die worden gesteld aan gespecialiseerde OLAP-databases:
Stermodel heeft de volgende tekortkomingen:
Een semantisch model bevat alleen de voor de gebruikers relevante kolommen en entiteiten.
Headers op rapporten moeten duidelijk zijn, in de taal van het bedrijf geschreven eenduidig over alle rapporten heen.
In een semantisch model wordt vastgelegd hoe verschillende entiteiten uit de organisatie verband met elkaar houden. Een semantisch model vertaalt een technische database-implementatie in een voor eindgebruikers leesbaar en begrijpelijk model dat bruikbaar is zonder over (veel) technische kennis te beschikken.
Belangrijker dan berekende kolommen zijn de berekende meetwaarden.
Om een OLAP-database een intuitief en conceptueel gegevensmodel te laten zijn, wordt bereikt door de vertaling naar een semantisch model.
Er zijn 2 belangrijke criteria die bepalen hoeveel meerwaarde een semantisch model heeft:
Het bouwen van een semantisch model komt overeen met een topdown-benadering.
Bij gebruik van datamarts komt de performance op 2 vlakken in het geding:
Met een OLAP-database of een in-memorydatabase kunnen performanceproblemen die bij datamarts een rol spelen voorkomen worden.
Veel Big Data-architecturen verdelen de gebruikte technieken in drie lagen:
In de batch layer draaien jobs die zich goed laten schedulen. Hier is dus sprake van batchverwerking.
In de speed layer vindt realtime analyses plaats en kunnen we de resultaten direct gebruiken.
In de serving layer kunnen we de resultaten aanbieden aan de gebruiker. Een OLAP-database zoals een kubus kan heel goed dienen als de serving layer. Dit is 1 van de belangrijkste doelen van een OLAP-database.
Goede OLAP-databases hebben krachtige scripttalen om berekeningen te doen.
Semantische modellen laten beschikbare gegevens aan gebruikers zien in hun egen taal zonder technisch randzaken.
OLAP-kubussen kunnen de performance problemen oplossen.
Een kubus is op te vatten als een multidimensionale database. OLAP-database en OLAP-kubus zijn synoniemen. Het betreft een analyse database waarbij vanuit meerdere perspectieven naar de gegevens gekeken kunnen worden.
Members in een kubus worden gevormd door de inhoud van een kolom in een DWH.
Een vuistregel zegt dat een stermodel uit niet meer dan 7 dimensies moet bestaan. Dat vertaalt zich echter niet naar een kubus met 7 assen; het zal een veelvoud daarvan zijn.
Er zijn 2 redenen waarom excel zo'n belangrijke BI tool is:
De draaitabel (matrix, pivottable) is een handige en veelgebruikte manier om grote hoeveelheden gegevens eenvoudig inzichtelijk te maken.
Multi Dimensional eXpressions (MDX) is de taal die hoort bij OLAP-kubussen.
Redenen waarom kubussen betere performance bieden dan relationele databases zijn:
Een natuurlijke hierachie is een drill-downpad waarvoor geldt dat er een 1-op-veelrelatie bestaat van het hogere niveau naar lagere niveaus.
MOLAP staat voor multidimensional OLAP.
ROLAP staat voor relational OLAP.
HOLAP staat voor Hybrid OLAP oftewel een mengvorm van MOLAP en ROLAP.
DOLAP staat voor Desktop OLAP en representeert technieken om de informatie offline beschikbaar te maken zodat bijvoorbeeld thuis met de laptop ook gewerkt kan worden.
Samengevat heeft de kubus 3 voordelen:
Zie inzendopgave.
Voordeel van excel in combinatie met een model is de analytische kracht van deze combinatie.
In de hoofdstukken 3 t/m 6 lag de nadruk op het verzamelen van de juiste gegevens om die vervolgens met de juiste kwaliteit in de juiste structuur op te slaan.
Hoofdstuk 6 nuanceerde de behoefte aan structuur en focuste met analytics al op het meer praktische gebruik, terwijl in dit hoofdstuk de focus lag op het gebruik van gegevens.
Het volgende hoofdstuk gaat over het echte presenteren, de communicatie uit analytics.
Semantisch model betreft een laag die een vertaalslag doet van een technische implementatie naar logische business entiteiten.
Argumenten om een kubus in te zetten binnen een BI-architectuur:
De 4 definities van een OLAP-kubus:
Bij MOLAP is de kubus een semantisch model en een database in 1, bij ROLAP is het alleen een semantisch model.
De kracht van een OLAP query engine is:
Front-end BI-oplossing is wat we zien en gebruiken:
Hierbij wordt het DWH en/of modellen ter beschikking gesteld aan de makers van front-ends.
Vanuit projectperspectief verdient een incrementele aanpak wel de voorkeur. Dit betekent dat je een stukje DWH ontwikkelt en vult en daar dan een front-end bij bouwt. Daarna breid je het DWH uit, waarna er weer nieuwe rapportages gebouwd kunnen worden.
Om de juiste tools te kiezen moet je naar 2 zaken kijken:
Technische specificaties hebben betrekking op de tools die beschikbaar zijn. Daarnaast is het belangrijk te kijken naar de aansluiting van deze tools op de achterliggende DWH en/of model. Bovendien is het belangrijk te weten voor welke doelgroep deze tools zijn gemaakt.
De mogelijke doelgroepen zijn al in hoofdstuk 2 ter sprake gekomen: farmers, tourists, explorers en de miners. We moeten weten welke mensen in welke groep vallen en bepalen welke tool aansluit bij de gestelde BI-doelen voor deze mensen. Gekozen tool dient aan te sluiten bij hun technische kennis en vaardigheden.
Farmers zijn mensen met een vaste, terugkerende informatiebehoefte. De farmer is veelal niet degene die de rapporten maakt; dit is een BI-ontwikkelaar of iemand met een vergelijkbare rol.
Farmers gebruiken de volgende soorten rapporten:
Hoe farmers rapporten gebruiken komt overeen met Descriptive Analytics.
Nadat tourists de informatie uit de standaardrapporten tot zich hebben genomen, blijft er nog een informatiebehoefte nodig: ad hoc vraagstukken. Hierbij is het relevant je af te vragen wie in deze informatiebehoefte gaat voorzien. Dit kan een professional vanwege haar/zijn technische bagage zijn en er is geen beperking als het gaat om tooling.
Nadelen inzetten specialist zijn:
Tools waar tourists wellicht mee aan de slag kunnen gaan zijn: MS Reporting Services en Power View.
Naast ad-hoc rapportages hebben tourists behoefte aan meer gedetailleerde informatie dan de standaardrapportages leveren. Dit kan door rapportages interactief te maken. Bij interactieve rapporten kun je onderscheid maken tussen drill-down en drill-through.
Drill-down staat voor het navigeren van hoog geaggregeerde gegevens naar steeds meer detail.
Drill-through betekent dat op een rapport hyperlinks staan naar andere rapporten.
Dit zijn de mensen die nieuwe wegen moeten en willen zoeken. Zij kijken vanuit een andere invalshoek naar de gegevens. Ze zoeken naar onbekende informatie en verbanden.
Excel is optimaal geschikt voor explorers.
De explorer is sterk bezig met Diagnostic Analytics.
Miners zetten bijvoorbeeld datamining in voor het analyseren van gegevens. Dit zijn mensen die zich bezighouden met Advanced Analytics en dan voornamelijk de Predictive Analytics.
De tools waarmee zij werken zijn bijv. SPSS, R en Python.
De data scientist vervult veelal deze rol.
Belangrijk is bij het kiezen van de juiste front-endtools is inspraak geven aan de beoogde gebruikers. Alles wat wordt opgelegd brengt per definitie wat weerstand met zich mee. Die drempel is genomen indien mensen zelf mogen (mee)beslissen. Bovendien weten ze zelf wat ze willen en kunnen. ICT mag de technische specificaties als inbreng hebben in het besluitvormingsproces.
Een KPI is een managementinstrument dat in 1 oogopslag de status van een proces laat zien. De KPI bestaat uit 4 componenten:
De meetwaarde is het feit. De doelstelling is ook een getal die goed vergeleken kan worden met de meetwaarde. Met de status wordt de doelstelling vergeleken met de meetwaarde. Met behulp van de trendindicatie kunnen verschillende periodes met elkaar worden vergeleken.
Een mission statement is het algemene doel dat een organisatie zichzelf als geheel stelt. Doelstellingen dienen SMART te zijn. SMART betekent: Specifiek, Meetbaar, Acceptabel, Realistisch en Tijdgebonden.
De strategie van een organisatie is de wijze waarop de organisatie het doel zoals verwoord in het mission statement denkt te bereiken.
Een scorecard is niets anders dan een lijstje met KPI's. Het doel van een scorecard is snel te kunnen zien hoe een organisatie, een afdeling of een persoon presteert.
Balanced Scorecard is een techniek voor strategisch management en het behalen van langetermijndoelstellingen binnen bedrijven. Het is een methode om bedrijven aan te sturen, terwijl de scorecard het hulpmiddel is dat daarbij wordt gebruikt.
Bij de balanced scorecard-methode en de hulpmiddelen die daarbij gebruikt worden hoort volgens Kaplan en Norton (bedenkers balanced scorecard), ook een strategy map. De map beoogt het verband tussen de strategie en de concreet gestelde doelstellingen duidelijk te maken. Een strategy map kan gezien worden als documentatie bij een scorecard die is opgezet volgens de theorie van de balanced scorecard, dus met KPI's in alle 4 de perspectieven, uitgewerkt tot concrete SMART-doelstellingen op operationeel niveau
Een dashboard is een gemakkelijk te lezen, vaak realtime, grafisch overzicht van de status en de historische trends van de KPI's van een organisatie om onmiddellijk gefundeerde besluiten te nemen.
Het is geen harde eis dat een dashboard interactief moet zijn. Een ander kenmerk dat dashboards kan onderscheiden van andere rapporten is het feit dat ze putten uit meerdere bronnen.
Er zijn veel speciale tools op de markt om dashboards te maken, bijv. PerformancePoint van Sharepoint.
Een rapport is een verzameling gegevens die zodanig is opgemaakt en weergegeven dat deze voor de gebruikers bruikbare informatie oplevert.
Veel rapporten maken gebruik van parameters.
Een bekend fenomeen met rapporten is de wildgroei van beschikbare rapporten.
Bij tool-keuze moeten de securityvereisten meegenomen worden.
Voor rapporten en dashboards valt security uiteen in 2 onderdelen:
Technisch moet er ook nog gekeken worden met welke security credentials de op een rapport getoonde gegevens uit de gebruikte bron gehaald worden.
Het kiezen van verkeerde visualisaties, of het kiezen van een verkeerde schaal, kan leiden tot foutief geinterpreteerde informatie. Dat leidt weer tot verkeerde beslissingen waarmee wij ons hele doel voorbij schieten.
Belangrijk bij het ontwerpen van rapporten is het onderscheid tussen preattentive processing (preattentieve verwerking) en attentive processing (attentieve verwerking).
Boodschap: door iets simpels als een afwijkende kleur kan je de aandacht van iemand onmiddellijk laten uitgaan naar datgene wat jij als belangrijkste beschouwd op dit rapport. Andere voorbeelden van attentieve eigenschappen zijn:
Bij preattentieve eigenschappen maken we onderscheid tussen wel of niet kwantitatief. Naast kwantitatieve informatie hebben we ook categoriale informatie. Bij categoriale informatie gaat het om de logische verdeling van de gegevens.
Welke boodschap wil je met een rapport overbrengen?:
Een plaatje zegt meer dan 1000 woorden.
Zie Handboek Power BI.
Goede front-ends geven gebruikers inzicht (intelligence) in hun business.
Een strategy map maakt inzichtelijk welke doelstellingen voortkomen uit welke strategie.
Slicer is een grafische vorm waarin een filter kan worden weergegeven.
Operationele rapporten hebben over het algemeen striktere latency-eisen dan managementrapportages.
Wildgroei rapporten: er zijn zoveel rapporten dat niemand meer weet welk rapport welke informatie toont.
Een dashboard is een overzicht van belangrijke informatie waaronder eventueel een scorecard.