Data Lake

Big Data is de immense hoeveelheid gegevens die intern bij bedrijven, organisaties en overheden ligt, met daar bovenop alle data die consumenten online communiceren. In die kluwen liggen prachtige antwoorden. Om die antwoorden te achterhalen moet de vraag duidelijk zijn. Bij die vraag horen gegevens en met Data Mining “graven” we de benodigde gegevens op. In een Data Lake worden de gegevens geparkeerd om ze vervolgens te analyseren.

HET DATA LAKE BINNEN ONGESTRUCTEREERDE DATA

Waar data vroeger meer gestructureerd was en netjes in schema’s kon worden opgeslagen, is de hoeveelheid en diversiteit van data vandaag de dag zo groot, dat een schematisch benadering niet altijd zinvol of zelfs mogelijk is. In een Data Lake kunnen vele soorten gegevens worden opgeslagen om later verbanden te leggen. Deze verbanden worden semantisch bepaald. Binnen een Data Lake hebben ongestructureerde data een plek om te verblijven en kan er flexibel worden omgegaan met de grote hoeveelheid gegevens.

DE 3 V'S

Bij Big Data draait het allemaal om de 3 V’s:

  • Volume
  • Variety
  • Velocity

Er is een enorme, dagelijks groeiende hoeveelheid gegevens en ze zijn divers. Data komt uit tweets, uit excel, uit webshops… En om Big Data goed voor je te laten werken heb je het realtime nodig. Denk aan voorlopige verkiezingsuitslagen of aan track en trace-systemen.

Een Data Lake voorziet in die drie behoeftes, volume, variety en velocity. De schaalbaarheid en flexibiliteit van de gegevens is gewaarborgd.