Open Datasets

Een dataset is een verzameling van gegevens. Voor een erfgoedinstelling zoals het Rotterdams Openbaar Vervoer Museum (Stichting RoMeO) gaat het dan vooral om de metadata van de objecten die opgenomen zijn in de digitale collectie. De metadata zijn alle teksten die gebruikt worden bij de beschrijving van een object. Wie zoekt in de digitale collectie, ziet niet alleen het object (foto), maar ziet ook allerlei beschrijvende teksten.  Van een set objecten bij elkaar (of van álle objecten bij elkaar) is dat een verzameling of set metadata. Zo’n set wordt aangeduid als dataset. Omdat de set openbaar is - iedereen kan er gebruik van maken zonder enige beperking - wordt ook vaak gesproken over een open dataset.  En omdat het een belagrijk element is van een digitale collectie worden vaak ook hoofdletters gebruikt. Het wordt dan een Open Dataset.

Het voordeel van een dataset is dat deze machineleeshaar is. Daarmee wordt bedoeld dat de computer een dergelijke set kan lezen. Op die manier kunnen relatief gemakkelijk datasets met elkaar worden vergeleken. Vervolgens kunnen allerlei vragen snel beantwoord worden. Vragen zoals: 

  • Is er bij een andere erfgoedinstelling een afbeelding aanwezig van eenzelfde situatie (bijvoorbeeld een bepaald gebouw of een bepaalde gebeurtenis)?
  • Welke andere fotograaf (waarvan de foto in een andere beeldbank is opgenomen) was aanwezig bij die gebeurtenis?
  • Is een bepaald voorwerp (bijvoorbeeld een museumobject) in de loop van de tijd op andere plaatsen aanwezig geweest? 

RoMeO heeft op dit moment één open dataset van alle objecten. Deze kunt u hier vinden. Op de resulaatpagina van het object in de databank kunt u de dataset downloaden van dat specifieke object. U klikt daarvoor op het wereldbol-icoontje onderaan de getoonde metadata. Het meest gebruikte formaat daarvoor is .rdf. Resource Description Framework (de afkorting wordt ook vaak met kapitalen geschreven als RDF) is een standaard van het World Wide Web Consortium (W3C), oorspronkelijk ontworpen als een metadata-model, maar gaandeweg gebruikt als een formaat om gegevens in het algemeen voor te stellen en uit te wisselen. Het formaat RDF.gz is een gecomprimeerde vorm, dat wil zeggen met een verminderde bestandsomvang. Het programma gzip, wat de afkorting is voor GNU zip, is een compressieprogramma voor Unix en Linux dat bestanden comprimeert in het genoemde gz-formaat, meestal in combinatie met tar.
In de toekomst komen er datasets over specifieke onderwerpen, bijvoorbeeld een dataset met de objecten die een relatie hebben met de Tweede Wereldoorlog.
Houdt u er rekening mee dat het systeem van open datasets sterk in ontwikkeling is, waardoor er nogal eens aanpassingen moeten plaatsvinden in de websites en de databases. Sommige toepassingen zijn dan ook tijdelijke niet bereikbaar.

De Open Datasets van Stichting RoMeO zijn of worden aangemeld bij het Datasetregister.  Het Datasetregister geeft een overzicht van de datasets van alle aangesloten erfgoedinstellingen waardoor er een totaalbeeld ontstaat van wat beschikbaar is aan gedigitaliseerd historisch materiaal. U kunt dan zoeken naar een specifieke dataset of een dataset van een bepaalde erfgoedinstelling. 

©Rotterdams Openbaar Vervoer Museum ©All rights reserved

Website ontwerp en realisatie: SIER Creatie