Toekennen Persistent Identifiers

16 oktober 2012, 7 januari 2014

Inleiding

Als onderdeel van haar Open Data-activiteiten heeft de afdeling Collectie Informatie besloten om Persistent Identifiers toe te gaan kennen. Beschikbaar stellen van data voor hergebruik door externe partijen betekent dat we ook na moeten denken over duurzame webadressen en duurzame verwijzingen naar digitale bronnen. Persistent Identifiers (PI’s) zijn permanente verwijzingen naar bronnen op het internet, objectpagina’s of beeldmateriaal op de website van het museum. Erfgoedinstellingen hebben, nu ze hun collecties online plaatsen, persistent identifiers nodig. De databases waaruit objecten gepresenteerd worden kunnen veranderen. Objectnummers kunnen (bijvoorbeeld in het geval van het Rijksmuseum) wijzigen, de techniek van de website kan omgegooid worden en hele websites of (sub-)domein kunnen hernoemd of geherstructureerd worden. Bij al dit soort wijzigingen worden externe koppelingen en links van derden naar objecten onbruikbaar. Mensen realiseren zich vaak niet dat niet alleen collega-instellingen of weblogs doorlinken naar pagina’s die niet meer bestaan, maar dat ook objecten die door Google geïndexeerd zijn onvindbaar worden. Het kan de nodige tijd en energie kosten om de collectie via Google en partnersites zoals Europeana weer toegankelijk te maken.

Persistent Identifiers (PI) zijn zo ingericht dat de verwijzing voor externe partners altijd hetzelfde blijven. Een persistent identifier is als volgt opgebouwd:

  • URL van PI resolver systeem [lees: het stukje techniek dat de duurzame URL doorlinkt naar het “echte webadres” van een object]
  • dan volgt de instellingscode (organisaties kunnen immers ook van naam veranderen)
  • en ten slotte een automatisch gegenereerde, unieke code.

Voorbeelden: http://hdl.handle.net/10934/1: dit is de PI voor de homepage van het Rijksmuseum http://hdl.handle.net/10934/RM0001.COLLECT.5223 is de PI van het Joodse Bruidje.

Als een website, instellingsnaam of databasesysteem wijzigt dan kunnen de wijzigingen in het PI systeem doorgegeven worden en blijft de URL hetzelfde. Een PI is opgebouwd uit twee elementen. een prefix: de URL naar het type PI waar de organisatie gebruik van maakt en daar achter een instellingscode. En een suffix: de verwijzing naar het uniek identificeerbaar digitaal object.

Wij hebben een grote digitale collectie en daarom is het belangrijk om goed na te denken over de structuur en het vastleggen van Persistent Identifiers. In dit artikel staat kort beschreven hoe het Rijksmuseum PI’s implementeert.

PI digitale objecten

Het Rijksmuseum kiest er op dit moment voor om de volgende “digitale objecten” te voorzien van een PI:

  • Alle objecten uit de collectie die een eigen Adlib record hebben, krijgen ook een PI.
  • Alle beelden in het Historisch Archief krijgen een PI zodra er een beschrijving van het beeld is aangemaakt.
  • Alle vervaardigers van objecten in de collectie van het RMA kunnen een eigen PI krijgen (er dient nog besloten te worden of het RMA een PI toekent of een PI van een andere instelling overneemt)
  • Alle tentoonstellingen krijgen een PI zodra de tentoonstellingen database actief in gebruik wordt genomen.

Handle Prefix

In navolging van andere erfgoedinstellingen hebben wij gekozen voor Handle als PI systeem. Het IISG, het Nationaal Archief en CatchPlus hadden Handle al als Resolver oplossing geselecteerd en wij hebben besloten niet zelf opnieuw een selectietraject uit te voeren.

Op 10-12-2012 heeft het Rijksmuseum de instellingscode 10934 verworven. Alle PI’s van het Rijksmuseum beginnen met: http://hdl.handle.net/10934. Een instellingscode (en handle prefix) is te verkrijgen door een formulier in te vullen op www.handle.net, een jaarlijkse contributie van $ 50,- en eenmalig $ 50,- administratiekosten te betalen.

Suffix

Sinds enige tijd worden alle objectrecords van het Rijksmuseum in Adlib voorzien van een PI-suffix: een unieke code om het object uniek identificeerbaar te maken. De suffix wordt geautomatiseerd in Adlib toegekend en is als volgt opgebouwd:

RM0001.COLLECT.0231

De eerste twee letters van de broneigenaar (RM) en het nummer van de database: RM0001 is de collect database, RM0002 is de database van n het historisch archief.

De naam van de *.inf wordt ook meegegeven daar vervaardigers ook uit het CMS (RM0001) cluster van databases komt. RM0001.COLLECT is een record uit de collectie database RM0001.PEOPLE is een record uit de vervaardigers database.

Tot slot wordt het recordnummer van het digitaal object opgenomen in de PI.

Zodoende kan het RMA geautomatiseerd PI’s toekennen aan verschillende soorten databases (COLLECT, PEOPLE, THESAU). Aan verschillende clusters databases: de objecten van het KOG zijn bijvoorbeeld in een eigen collect database opgenomen en kunnen, als de collectie en database in bruikleen komen, eigen unieke PID’s krijgen. Met het recordnummer als verwijzing naar het specifieke digitale object.

Toekennen suffix

Suffixen worden in Adlib toegekend zodra een record van een object wordt aangemaakt. De gehele suffix wordt in het veld PI (Pesistent Identifier) opgeslagen. Zodoende kunnen records Duurzaam geïdentificeerd worden, ook al wordt een object bijvoorbeeld eerst in de database van het KOG en later in de database van het Rijksmuseum opgenomen. Een PI is, als hij eenmaal toegekend is, onveranderlijk en direct gekoppeld aan het record waar naar verwezen wordt.

Het veld PI is op dit moment nog niet zichtbaar in Adlib, maar in een volgende iteratie zal het veld zichtbaar zijn op het tabblad Recordbeheer.

De PI’s online krijgen

In samenwerking met het IISG heeft het Rijksmuseum in september 2013 zijn Persistent Identifiers online gezet. Het Rijksmuseum heeft een clouddienst ingekocht die voldeed aan de volgende wensen:

 Project Persistent Identifiers Online duurzame verwijzingen naar objecten in de collectie (ISBN voor museale objecten)

Behoefte: webserver(s) waarop een door ons (in samenwerking met externe ontwikkelaar) ontwikkeld ‘resolving’ [x] systeem kan draaien.

Voor dit project hebben wij een online omgeving (Cloud oplossing) nodig, die voor iedereen toegankelijk is en altijd beschikbaar is. In de digitale omgeving die wij aan wensen te schaffen draait een zelf ontwikkeld systeem dat webverzoekingen en online verwijzingen vertaalt naar digitale objecten in onze collectie/op onze website.

Het systeem is bedoeld als duurzaam verwijzingssysteem naar onze objecten en dient redundant te zijn. (Als duurzaam systeem dient het niet geïntegreerd te worden in onze website/webomgeving. De aldaar gekozen techniek en vormgeving is aan veranderingen onderhevig terwijl wij een statische, onveranderlijke verwijzingsomgeving bouwen). Het systeem zelf is ontwikkeld op basis van eenvoudige technieken. Het systeem is klein en aan weinig/geen veranderingen onderhevig. Alleen de verwijzingen naar onze objecten dienen periodiek aangevuld te worden middels een kleine, door ons uitgevoerde upload (XML bestand). Ervaring elders leert dat de applicatie weinig onderhoud behoeft. Alleen de servers zelf dienen onderhouden en beveiligd/gecontroleerd te worden, zoals gebruikelijk.

Wij hebben een proxy server met Apache2, en twee storage servers gevraagd. OS op de servers is Linux. Tevens hebben we storage voor back-ups geregeld.

In deze omgeving is de Handle System Software en een webservice laag (MONGODB) geïnstalleerd. Deze webservice is ontwikkeld door het IISG in het kader van het HOPE project (http://www.peoplesheritage.eu/). Technische informatie over de PID service kan verkregen worden op GITHUB: https://github.com/IISH/PID-webservice.

Upload

Tot slot heeft het Rijksmuseum een Adlib script (Adapl> stand alone adeval) geschreven om de volgende XML te genereren:

<soapenv:Envelope xmlns:soapenv=”http://schemas.xmlsoap.org/soap/envelope/” xmlns:pid=”http://pid.socialhistoryservices.org/“> <soapenv:Body> <pid:UpsertPidRequest>   <pid:na>10934</pid:na> <pid:handle> <pid:pid>10934/RM0001.COLLECT.20</pid:pid> <pid:locAtt>   <pid:location pid:href=”http://www.rijksmuseum.nl/collectie/BK-1991-13” pid:weight=”1” /> </pid:locAtt> </pid:handle> </pid:UpsertPidRequest> </soapenv:Body> </soapenv:Envelope>

Middels een batch bestand wordt het script opgestart, een XML bestand gegenereerd en de XML automatisch verstuurd naar de PID webservice. (Indien gewenst kunnen scripts en dergelijke opgevraagd worden)

Presentatie

Doel van het ontwikkelen van Persistent Identifiers was het creëren van URLs voor objecten die duurzaam toegankelijk zijn. Wij wilden de PI’s dan ook aanbieden op onze website, op de pagina’s van objecten uit onze collectie. Maar, wij vermoedden dat onze webbezoekers niet bekend zijn (de term) Persistent Identifiers. Vandaar dat wij besloten hebben om de PI’s op onze website te propageren als “Duurzaam webadres”. Wij vermoeden dat de bezoekers van onze website (de gemiddelde Nederlander) een beeld heeft bij duurzaamheid en vandaar dat wij voor deze term gekozen hebben. Al onze objecten online zijn inmiddels voorzien van de volgende footer: “Als u naar dit object wilt verwijzen gebruik dan de duurzame URL: http://hdl.handle.net/10934/RM0001.COLLECT.5351

[x] Voor meer informatie over resolving: http://en.wikipedia.org/wiki/Resolver_(DNS)#DNS_resolvers

Advertenties

2 gedachten over “Toekennen Persistent Identifiers

  1. Pingback: Persistent Identifiers | Collectie Informatie

  2. Kijk even naar die duurzame URL aan het einde van het artikel. Als je er op klikt, krijg je een foutmelding.
    Hebben jullie samen met het IISG de cloud service genomen? Is deze service nu ook via jullie toegankelijk voor andere instellingen? Ik zou de SLA ervan graag vergelijken met de offertes van SURF/SARA en Picturae.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

w

Verbinden met %s