Data Analyse Breda

CRISP-DM: Stappenplan voor data gedreven werken

In deze blogpost geven we meer uitleg over de essentiële stappen die ondernomen moeten worden om uw data project tot een succesvol einde te brengen. We zoomen in op de CRISP-DM methodologie, een veel gebruikt stappenplan die richting geeft aan het projectmatig werken met data.

CRISP-DM staat voor Cross Industry Standardized Process voor Data Mining. De methodologie werd in 1996 ontwikkeld door vijf bedrijven (ISL, Teradata, Daimler AG, NCR Corporation en OHRA) met als doel het standardiseren van data mining activiteiten. De CRISP DM methodologie is hedendaags nog steeds een van de meest gebruikte analysemodellen voor data analisten en data scientists.

De CRISP-DM stappen vormen een iteratief proces waarin constant heen en weer bewogen wordt tussen de verschillende processtappen. Het model is erg dynamisch, en wordt in de praktijk vaak gecombineerd met andere agile en lean project management benaderingen. Het proces kent zes stappen. Onderstaand vindt u een visuele representatie van het model, en uitleg over alle processtappen.

Business understanding

In de eerste fase van het proces ligt de focus op het begrijpen van de doelen en vereisten van de onderneming. De kennis die hieruit voortvloeit moet worden omgezet naar een concrete probleemdefinitie en projectplanning voor data mining. Het is belangrijk om goed op de hoogte te zijn van de activiteiten van de onderneming, en te weten op welke manier het data mining project dient bij te dragen aan de doelstellingen van de organisatie.

Data understanding

De tweede fase van CRISP-DM betreft het identificeren en verzamelen van data voor het data mining project. Activiteiten in deze processtap dienen ervoor te zorgen dat de data analist bekend wordt met de data van de onderneming. Allereerst dient er data verzameld te worden. Daarnaast dient de analist een beschrijving te maken van de data. Er wordt nagegaan welke variabelen aanwezig zijn, welke data soorten er beschikbaar zijn, en hoeveel rijen en kolommen het databestand bevat. Vervolgens wordt de data gevisualiseerd en worden relaties in de data geïdentificeerd. Ten slotte wordt de kwaliteit van de data bekeken. Wanneer er kwaliteitsproblemen zijn wordt dit gedocumenteerd en meegenomen naar de volgende processtap.

Data preparation

Na het definieren van de probleemdefinitie en het begrijpen van de data komen we aan bij een van de belangrijkste en meest tijdsintensieve processtappen: Het prepareren van de data. De analist dient er in deze stap voor te zorgen dat de dataset gereed is voor de analyse. Eerst selecteert de data analist de data die gaat bijdragen aan de probleemoplossing van het bedrijf. Daarna begint hij aan het schoonmaken van de data (data cleaning), deze stap kost het meeste tijd gedurende het project. De analist dient alle foutieve en/of missende waarden te detecteren, corrigeren of verwijderen. Een bekende term is: Garbage-in, Garbage-out. Je resultaten in je data mining project zijn even goed als de kwaliteit van je data. Om de dataset zo sterk mogelijk te maken zal de analist na het schoonmaken van de data nieuwe variabelen creëren, in sommige gevallen de data combineren met andere databronnen, en aan de slag gaan met het re-formatten van sommige datakolommen.

Modelling

Dit is de kortste stap van het proces. Deze stap staat in het teken van het kiezen van de juiste analysetechnieken, het uitvoeren van tests, het bouwen van een model en het beoordelen van de kwaliteit van dit model. Voor elk project kunnen verschillende technieken gebruikt worden. Sommige analysetechnieken vergen een bepaald dataformat. Vandaar dat er in sommige gevallen weer terug bewogen dient te worden naar de data preparation stap.

Evaluation

In deze stap wordt het eindproduct dat voortkomt uit de modelling stap vergeleken met de business understanding. Er wordt bepaald of het resultaat uit de data analyse aan het voorop opgestelde projectplan en probleemdefinitie voldoet. Wellicht zijn er facetten die nog niet voldoen aan de verwachtingen. Uiteindelijk word er een beslissing genomen, gaat het project door naar deployment, of moeten er nog aanpassingen gemaakt worden.

Deployment

Het opleveren van een analysemodel is niet het einde van de cyclus. Uiteindelijk dient er in een deployment fase een kennisoverdracht plaats te vinden. De inzichten uit de analyse dienen te worden verzameld en overgedragen aan de klant of afdeling waar het onderzoek voor uitgevoerd is. Deployment kan in vele vormen plaatsvinden. Het kan een rapport zijn met statische informatie, maar bijvoorbeeld ook het implementeren en automatiseren van algoritmes, zodat de organisatie blijvend beslissingen kan maken op basis van de analyses. Wanneer het geen statisch rapport of presentatie betreft, dient er ook nagedacht te worden over het onderhouden en verbeteren van het algoritme. Ten slotte is het van cruciaal belang om terug te kijken op het proces, en te leren van de zaken die beter kunnen.

Gestructureerd te werk gaan met CRISP-DM

Het CRISP-DM stappenplan brengt structuur in uw data of ICT gerelateerde project. De globale stappen zijn breed toepasbaar, en kunnen u helpen om geordend te werk te gaan. Wij werken zelf volgens dit proces, en kunnen u alles vertellen over de werking en waarde van dit model. Mocht u vragen hebben, neem dan contact met ons op. U kunt natuurlijk ook bij ons terecht voor het managen en uitvoeren van uw data mining project. Wij zijn in staat om uw data mining project succesvol uit te voeren. We kunnen u ondersteunen bij alle activiteiten omtrent het verzamelen, analyseren, automatiseren, en visualiseren van data.