HDFS

Wat is HDFS?

Het Hadoop Distributed File System (HDFS) is een feature van Hadoop, waardoor deze laatste zeer bruikbaar wordt. HDFS is geschikt om grote bestanden te managen in een Big Data omgeving. Het HDFS zou je kunnen zien als een tussenstation van Big Data. HDFS is een opslagsysteem dat data in kleine stukken breekt en verwerkt.

HDFS: NameNode

Nadat HDFS de data in stukken heeft gebroken, worden deze gedistribueerd tussen verschillende datanodes in het HDFS-cluster. Het HDFS gebruikt datanodes om databrokken op te slaan. Hun functie is het opslaan en terughalen van data na communicatie met de NameNodes. De brokken data worden gemanaged door de NameNode. De NameNode slaat de naam en adressen van datanodes op. De NameNode is erg belangrijk, omdat hij weet welke data waar is opgeslagen. Zonder de NameNode zou HDFS dus niet functioneren.

HDFS: MapReduce

Het eindstation is MapReduce. Het HDFS distribueert de brokken data door een cluster waardoor map- en reducefuncities uitgevoerd kunnen worden op subsets van data.

HDFS: fouttolerantie

Een kenmerk van HDFS dat we hier willen uitlichten, is de fouttolerantie van het systeem. HDFS wordt normaal gesproken geïmplementeerd op zogenaamde low-cost commodity hardware. Een kenmerk van dit type hardware is dat serverfouten regelmatig voorkomen. HDFS is zo ontworpen dat het een hoge fouttolerantie kent. Een groot voordeel hiervan is dat het Hadoop-systeem kan blijven doordraaien ook als een node niet goed zijn werk doet.

We leggen je kort uit hoe de fouttolerantie van het HDFS-systeem in zijn werk gaat. Zoals eerder gezegd neemt het HDFS data tot zich waar hij vervolgens kleinere databrokken van maakt. Het HDFS distribueert vervolgens de brokken naar verschillende nodes in het cluster. HDFS kopieert ook elke databrok meerdere malen en distribueert deze kopieën naar een andere server rack. Als er dan een node crasht dan is de data nooit helemaal weg, maar kun je ze altijd nog ergens anders vinden.

Meer weten over HDFS?

Wil je meer weten over HDFS? Volg dan de cursus Big Data Programmer bij de Big Data Academy. Dit is de plek waar je opgeleid wordt tot vooraanstaand Big Data specialist. Na de cursus ontvang je van ons het Big Data certificaat waarmee je kunt aantonen dat jij zowel inhoudelijke als praktische informatie over Big Data systemen, zoals Hadoop, bezit: van de ontwerp- tot en met de documentatiefase. Bovendien laat je hiermee zien dat je in staat bent om het hele Big Data landschap te beheren.

Lees meer over het Big Data Programmer certificaat