Open Data versus Openbare Data
Gepubliceerd op 9 februari 2017

 Haagse Feiten is een dienst voor iedereen die wil weten wat er in en rond het Parlement gebeurt. Daartoe gebruiken wij openbare data die officieel wordt gepubliceerd door de Eerste en Tweede Kamer en de Rijksoverheid. Daarnaast linken wij nog nieuws en social media aan de processen rond het Parlement.

ConceptHaagseFeiten

Een fraaie applicatie ontsluit vervolgens ieder document (inmiddels meer dan 1 miljoen) op ieder woord uit de tekst, zodat niemand meer iets hoeft te missen en door expliciet een dashboard voor monitoring, een agenda voor de komende en voorbije vergaderingen, een spelerspagina (voor de whodunnit) en een archief tot 20 jaar terug aan te bieden worden zoveel mogelijk processen van onze gebruikers ondersteund.

Maar nu, de data. Hoewel de Overheid open data hoog in het vaandel heeft staan, moesten wij concluderen dat voor onze toepassing, het makkelijker toegankelijk en inzichtelijk maken van informatie van het Parlement, er geen (geen enkele) open data beschikbaar was en is. Een informele check deze week met de Tweede Kamer-organisatie leerde dat ook de API van de Tweede Kamer door beperkt budget maar heel langzaam vooruit komt. Ik heb dan ook de kans om voor de gebruikersgroep data.overheid.nl ons verhaal te vertellen over waar wij tegenaan zijn gelopen met beide handen aangegrepen in de hoop dit hoger op de agenda te krijgen. Met dank aan de gastvrijheid van KOOP/MinBZK.

We hebben voor Haagse Feiten meer dan 6 maanden met ruim 30 gebruikers van parlementaire data gesproken om er achter te komen wat ze gebruiken, hoe ze het gebruiken en wat ze vervolgens met die data doen. Daarbij hebben we ook mogelijke verbeteringen van de processen doorgesproken, laten zien en getest, om zo een toepassing te maken die nauw aansluit bij echte behoeften van echte gebruikers.

VerzamelenAnalyserenVisualiserenHaagseFeiten

Het viel enorm tegen om de data, die wel openbaar is, maar geen open data is, te verwerken voor onze toepassing. Waar we eerst uitgingen van veel tijd besteden aan de toepassing, viel dat juist enorm mee, maar het snel, efficient en volledig ophalen van de data heeft de meeste tijd gekost. De onderliggende systemen bevatten bijvoorbeeld heel weinig metagegevens (wie heeft de kamervraag ingediend, wanneer is het gepubliceerd, etc.). Als deze gegevens al voorhanden zijn, dan zijn ze niet in machineleesbare vorm beschikbaar en wij hebben in deze gevallen dus de machine moeten leren lezen.

Tevens worden Kamerstukken (dezelfde) soms op 4 websites gepubliceerd. Het zal altijd, meestal later, op officielebekendmakingen.nl komen, vaak eerder staat het op tweedekamer.nl, als het een antwoord is van een Minister bijvoorbeeld, dan komt het ook nog op rijksoverheid.nl en eerstekamer.nl her-publiceert ook nog verschillende Kamerstukken. Het grappige (maar niet heus) is dat hetzelfde document dan ook nog eens op 4 verschillende manier wordt voorzien van metagegevens en dat ze het zelfs niet eens zijn over wie nu bijvoorbeeld de indiener van een Kamerstuk is. Het gebeurt dus dat Harry van Bommel op 3 verschillende manieren als indiener wordt gebruikt, als ‘Van Bommel’, ‘H. van Bommel’ en ‘Bommel, van H.’ en dan ook nog met of zonder partij en/of aanduiding dat hij een Kamerlid is.

Haagse Spelerspagina

Om compleet te zijn en om consistent te zijn hebben we enorm veel inspanning moeten leveren en daar zijn we nog steeds mee bezig. Tevens combineren we steeds meer data met elkaar, zoals op de spelerspagina, waar we alle data over 1 persoon bij elkaar brengen, van de biografie, de ingediende Kamerstukken, de activiteiten op social media, etc. Heel belangrijk is de terugvindbaarheid en het altijd terug kunnen linken naar de brondata. Ook daar laten de officiële kanalen ons een beetje in de steek. Niemand, zelfs officielebekendmakingen.nl niet, kan garanderen dat documenten volgende week, volgend jaar of wanneer dan ook, nog steeds op dezelfde plaats staan.

‘The making of …’ samengevat

Hoewel ‘open data’ niet beschikbaar is voor Parlementaire data, is het wel gelukt om vanaf officiële openbare bronnen complete en tot op de minuut up-to-date data te halen, te verrijken en integraal beschikbaar te maken op een manier dat onze gebruikers er maximaal voordeel van hebben.

Haagse Feiten is gelukt door:

  • Onze Technische know-how
  • Kennis van gebruikers van Parlementaire data
  • Kennis van data-driven apps
  • Werken in een imperfecte wereld 🙂

Maar we gaan door en het kan beter en makkelijker voor iedereen. Wat wij (en onze gebruikers) graag willen van de officiële parlementaire bronnen:

  • Open data sets voor parlementaire data en documenten
  • Permanente identifiers naar permanente data
  • Makkelijker oogst
  • Normalisatie
  • Makkelijker relateren aan andere datasets (CBS, CPB, etc.)

Bekijk de presentatie: Gebruikersgroep data.overheid.nl 2016-06-10 (pdf, 3.7 MB).

Ronald Baan, Product Owner Haagse Feiten