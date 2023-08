Dit verhaal is ook te beluisteren.

Op 17 juli 2014 stort vlucht 17 van Malaysia Airlines, onderweg van Amsterdam naar Kuala Lumpur, rond half twee ’s middags neer in een veld in de buurt van Donetsk. Drie uur later plaatst Igor Girkin, pro-Russische separatistenleider en minister van Defensie van de ‘Donetsk Volksrepubliek’, een bericht op VKontakte, een Russisch sociaal medium: ‘We hebben net een vliegtuig neergehaald, een AN-26 [Antonov 26, een militair vrachtvliegtuig, JK]. We hebben waarschuwingen gegeven om niet in ons luchtruim te vliegen.’ Het bericht bevat links naar videobeelden van de wrakstukken van een vliegtuig; het lijkt om een Boeing 777 te gaan.

Twee uur later wordt de post verwijderd. Girkin of de administrators van zijn kanaal realiseren zich dat het niet om een Oekraïnse AN-26 gaat, maar om een passagiersvliegtuig uit Nederland. Maar dan heeft de Wayback Machine van het Internet Archive al een kopie van het bericht gemaakt.

Acht jaar later, in 2022, na een langdurig proces van ongeveer tweeënhalf jaar, veroordeelt de Nederlandse rechtbank Girkin en twee nauwe medewerkers tot een levenslange gevangenisstraf. Het gearchiveerde socialemediabericht is onderdeel van het doorslaggevende bewijsmateriaal.

808 miljard websites

Internet Archive is een Amerikaanse non-profit-organisatie die sinds 1994 aan ‘webarchivering’ doet met de Wayback Machine, de heroïsche naam van de software die het internet afstruint en kopieën maakt van de inhoud, het ‘web’ – web crawling in het Engels.

Bij het horen van het woord webarchivering denk je misschien aan gedigitaliseerde collecties van bestaande boeken, historische documenten of wetenschappelijke artikelen. Dat is het niet. Webarchivering gaat over het bewaren van het web zelf, zoals het nu is, inclusief de plekken waar mensen, overheden en, in dit geval, een criminele rebellenminister, met elkaar en de wereld communiceren. Bij elkaar liggen er ruim 808 miljard webpagina’s uit binnen- en buitenland, tientallen miljoenen afbeeldingen en video’s en nog eens miljoenen games en andere software opgeslagen op de servers van Internet Archive in Richmond, California.

Die aantallen groeien met de dag, met de seconde zelfs.

Het Internet Archive is niet de enige actieve archiefinstelling. Ook in Europa, in Frankrijk, het Verenigd Koninkrijk, Duitsland, Denemarken, België en Nederland zijn mensen, bibliotheken en andere archiefinstellingen bezig om om de zoveel tijd het web op te slaan.

Maar waarom toch?

Het internet is geen boekenkast

Volgens de oprichter van Internet Archive, Brewster Kahle, is het antwoord op die vraag: universele toegang tot alle kennis van de mensheid. De bibliotheek van Alexandrië van het Oude Egypte maar dan digitaal, zoals Kahle de organisatie regelmatig beschrijft tijdens interviews of lezingen. Saillant detail: er ligt een gedeeltelijke back-up van het Internet Archive op servers in Alexandrië. Internet Archive moest een digitaal archief worden voor alle gepubliceerde werken ooit geproduceerd door de mens, een soort levend naslagwerk van culturen.

De ambitie om heel het web op te slaan bleek te hoog gegrepen. Het web is te groot en verandert simpelweg te snel. Dagelijks komen er op het wereldwijde web tienduizenden websites bij én worden er een heleboel verwijderd.

Bij veel mensen bestaat het beeld van het internet als een soort boekenkast. Zodra een artikel of afbeelding in een boek (i.e. een website) op de plank ligt, ligt het er voor altijd, onveranderd. Maar het internet is geen boekenkast. Integendeel, het internet is een vluchtig medium.

Perkament, het medium van de bibliotheek van Alexandrië, is stukken duurzamer gebleken dan de digitale bits en bytes op onze internetservers.

Internetwetenschapper Peter Lyman van de Berkeley Universiteit in California berekende eens dat slechts twintig procent van het materiaal op het wereldwijde web een jaar na plaatsing nog bestaat. Veertig procent is binnen dat jaar aangepast en de andere veertig procent is simpelweg verdwenen. De gemiddelde levensduur van een webpagina wordt geschat op zo’n honderd dagen. En dat is nadrukkelijk een gemiddelde. Igor Girkins ‘We hebben net een vliegtuig neergehaald’-post was amper twee uur online.

Eenmaal verwijderd is er geen kopie meer. Een boek ligt misschien in vijfvoud in het magazijn van de bibliotheek, een webpagina verdwijnt als de eigenaar – een bedrijf, een krant, een politicus of een overheid – het offline haalt of domweg geen geld meer heeft voor de hostingkosten. Perkament, het medium van de bibliotheek van Alexandrië, is stukken duurzamer gebleken dan de digitale bits en bytes op onze internetservers.

De geschiedenisloze tijd

The historyless decade, of de geschiedenisloze tijd. Zo wordt de periode vanaf begin jaren negentig onder internetwetenschappers en archivarissen ook wel genoemd. Er gebeurde in die tijd ontzettend veel online, maar wat precies, dat zullen we nooit weten. Er was, behalve Brewster Kahle misschien, geen haan die kraaide naar archivering van het web. Veel van het digitale materiaal is de afgelopen dertig jaar verloren gegaan en daarom is terugkijken moeilijk. Terwijl het web historici, journalisten, juristen en andere geïnteresseerde burgers in theorie juist een schat aan informatie over de (verleden) tijd biedt, niet gemaakt door overheden of rijke personen, maar user generated.

Alt0169.com, bijvoorbeeld, tussen 1999 en 2001 de voorloper van geenstijl.nl, is een website die voorgoed verloren is gegaan. Alt0169 was een van de eerste weblogs (later:blogs) van Nederland en werd populair door het plaatsen van korte nieuwsberichten en vooral door het mogelijk maken van discussie onder lezers.

Een andere website die niet meer bestaat is hyves.nl, een van de vroege sociale media uit Nederland. Met in 2010 meer dan 10 miljoen accounts zou een Hyves-archief boekdelen spreken over de ontwikkeling van de Nederlandse (online) cultuur, communicatie en taal.

Het internet mag dan geen boekenkast zijn, het zijn overwegend nationale bibliotheken die, grofweg sinds de eeuwwisseling, in Europa zijn begonnen met het opslaan van het web. De Bibliothèque Nationale de France, de British Library, de Koninklijke Deense Bibliotheek, de Deutsche Nationalbibliothek. In Nederland maakte de Koninklijke Bibliotheek in 2007 haar eerste kopie van een website.

Inmiddels heeft de KB meer dan 20.000 websites van publiek belang opgeslagen op haar servers. Voorbeelden zijn de websites van De Nationale Ombudsman, de Speld, de Universiteit van Wageningen en de blog van Arnon Grunberg. Maar ook websites met veel user generated content, zoals een forum voor Christelijke LGBT’ers (euroforumlgbtchristians.eu) of het Viva Forum (forum.viva.nl), een weblog van tijdschrift Viva. Toen Viva medio 2021 aankondigde het forum offline te halen, begon de KB snel met kopieën maken.

Niet een maar twee slashes

‘Je kunt niet het hele web archiveren, maar je kunt wel af en toe een momentopname maken,’ zegt Sophie Ham, coördinator webarchivering bij de KB. Ham houdt zich bezig met archivering van het ‘Nederlandse internet’. Dat gaat niet alleen over webmateriaal in het Nederlandse domein (url’s eindigend op .nl of bijvoorbeeld .rotterdam), maar ook over alle websites in het Nederlands of websites die eigendom zijn van Nederlanders op andere domeinen als .com of .eu.

Bij Internet Archive werken ruim 160 mensen. Bij de KB zijn er tien medewerkers parttime met webarchivering bezig. De KB moet daarom selectief zijn, legt Ham uit. Het kan bijvoorbeeld niet elke week een complete domain crawl uitvoeren. Zo noemen webarchivarissen het wanneer je een breed net uitgooit over het hele Nederlandse internetdomein en een, relatief oppervlakkige, momentopname maakt.

‘Dat is wat Internet Archive doet, alle homepages opslaan en dan nog één laagje verder,’ vertelt Ham. ‘Als wij de website van de Universiteit van Amsterdam archiveren – die is nogal groot – willen we ook zeker weten dat we alle pagina’s van de afdeling Biologie en alle pagina’s van de Faculteit Geesteswetenschappen hebben. Niet één maar twee of drie slashes in de url verder.’

In plaats van brede domain crawls doen de KB en andere erfgoedinstellingen zoals Stichting Beeld en Geluid, verantwoordelijk voor het opslaan van audiovisueel materiaal uit Nederland, of het Stadsarchief Amsterdam, aan event harvesting. Het gaat dan om archiefcollecties over belangrijke gebeurtenissen van publiek Nederlands belang. Ham: ‘We hebben bijvoorbeeld een collectie met maatschappijkritische websites aangelegd met onderwerpen als de zwartepietendiscussie, klimaatontkenning of de stikstofcrisis. Dergelijke websites wil je veiligstellen voor toekomstige generaties.’

Webarchivering zonder Wet Archivering

Er is nog een belangrijke reden dat erfgoedinstellingen in Nederland niet breder kunnen crawlen. Er bestaat in Nederland geen wettelijke grondslag voor webarchivering, oftewel ‘depotwetgeving’ die organisaties – doorgaans bibliotheken – aanwijst als archiefinstelling. In de meeste West-Europese landen bestaat zulke wetgeving wel. De British Library, bijvoorbeeld, maakt met een domain crawl gemiddeld twee keer per jaar een grove doorsneekopie van het ‘Britse internet’. Dat is legaal door de aanwezige depotwetgeving.

Friedel Geeraert, deskundige op het gebied van webarchivering aan de KBR, de Koninklijke Bibliotheek van België, legt uit hoe deze wetgeving zich heeft ontwikkeld. ‘Oorspronkelijk spraken de depotwetten over fysieke bronnen: boeken, allerlei soorten documenten. Later kwamen daar “digitale dragers” bij: floppydisk, cd-rom. Weer later, toen het internet opkwam en later webarchivering, hoefden ze alleen maar het woordje “digitaal” toe te voegen aan de wet.’

‘Wij doen aan webarchivering omdat we het, net als fysieke archivering, belangrijk vinden, niet omdat de wet zegt dat we dit moeten doen. Eigenlijk is wat we doen juridisch gezien niet helemaal waterdicht.’

Nederland is dus een uitzondering op die regel. ‘In België is de depotwetgeving nog niet compleet hoewel we werken aan een uitbreiding ervan,’ zegt Geeraert. ‘ Maar we hebben in ieder geval het kasteel, we moeten alleen nog een torentje bijbouwen. In Nederland moet het hele kasteel nog gebouwd worden.’

Toch heeft dat een systeem van archivering in Nederland niet kunnen tegenhouden, vertelt Sophie Ham. ‘Uitgevers sturen een kopie van een nieuw boek altijd braaf naar de KB voor in het depot. Wij doen aan webarchivering omdat we het, net als fysieke archivering, belangrijk vinden, niet omdat de wet zegt dat we dit moeten doen. Eigenlijk is wat we doen juridisch gezien niet helemaal waterdicht.’ Martijn Kleppe, directielid van de KB, pleitte daarom onlangs in de Volkskrant voor een wetswijziging die webarchivering een juridische grondslag zou geven.

Jeeps op TikTok

Op 10 mei 2023 loop ik op het Hilversum Media Park het enorme gebouw van Stichting Beeld en Geluid binnen. Mensen lopen binnen en krijgen een badge omgehangen. Ze zijn in Hilversum voor de zevende editie van de WAC, de Web Archiving Conference. Sophie Ham, Friedel Geeraert en Jefferson Bailey van het Internet Archive zijn drie van de ruim 250 mensen uit meer dan veertig landen die in de komende drie dagen ervaringen, methodes en technieken op het gebied van webarchivering met elkaar uitwisselen. De aanwezige instellingen – voornamelijk bibliotheken – zijn verbonden in het wereldwijde netwerk International Internet Preservation Consortium (IIPC) dat de WAC jaarlijks organiseert.

In de volgepakte Theaterzaal 1 geeft Eliot Higgins de keynote speech. Geen bibliothecaris, maar een journalist en de oprichter van journalistencollectief Bellingcat.

Een filmpje begint te lopen op het scherm achter Higgins. Drie volop bewegende en schokkende video’s spelen in portretformaat naast elkaar af. Het zijn duidelijk amateurbeelden, gevonden op het sociale medium TikTok, vertelt Higgins het publiek. We zien een kolonne militaire jeeps, vanuit verschillende hoeken gefilmd. De een vanuit een raam op de vierde of vijfde verdieping van een flatgebouw, de ander vanaf een meter of tachtig op straatniveau. Op de derde zie je de jeeps van dichtbij voorbijtrekken.

Het zijn Russische voertuigen, licht Higgins toe, in de dagen voorafgaand aan de invasie van Oekraïne op 24 februari 2022. ‘De Russische autoriteiten claimden dat dit routine-oefeningen waren, maar door het natrekken van de geolocatie van de video’s konden we zien dat deze activiteit in de buurt van de Oekraïense grens plaatsvond.’

In zekere zin is Bellingcat zijn eigen privéwebarchivaris. Het slaat publieke sociale-mediacontent op, voorkomt zo dat belangrijk materiaal voorgoed verloren gaat, en gebruikt dat als bron voor onderzoeksjournalistiek.

Extreem dominant

Wanneer je, zoals Bellingcat doet, specifieke posts en video’s zoekt en daar kopieën of screenshots van maakt, is archiveren nog niet zo ingewikkeld. Op TikTok helemaal, daar kun je als gebruiker ook gewoon op de downloadknop drukken. Het wordt moeilijker bij andere sociale media, zoals Facebook, Twitter, Instagram of YouTube, waarvan content niet zomaar gedownload kan worden, laat staan als je daar, zoals de bibliothecarissen in Hilversum, brede, geautomatiseerde crawls op los wilt laten.

En dat terwijl het vastleggen van sociale media als onderdeel van webarchivering steeds belangrijker wordt, vindt Geeraert. ‘Stel, je wilt weten hoe er in het jaar 2018 in Nederland over gender werd nagedacht. Of je wilt de samenleving tijdens de coronapandemie bestuderen. Dat kan bijna niet meer zonder content op sociale media. Ik ben zelf historicus, maar ook voor sociologen, politicologen, communicatiewetenschappers of linguïsten zijn sociale media tegenwoordig uiterst belangrijke bronnen.’

Op dat gebied zijn grote Amerikaanse platforms de laatste tien jaar extreem dominant geworden. Waar veel Nederlanders in de eerste tien jaar van het mainstream-internet – grofweg tussen 1995 en 2005 – nog een eigen blogpagina hadden bij providers als XS4ALL of Euronet, communiceren ze nu via die platforms met de wereld: Instagram, Facebook, Twitter, TikTok. Ook lokale sociale media werden weggeconcurreerd: Hyves is daar een goed voorbeeld van.

Internet op steroïden

De ingewikkeldheid van sociale-media-archivering zit hem in een paar dingen, volgens zowel Geeraert als Ham. Ten eerste heb je te maken met dezelfde vluchtigheid die inherent is aan het internet, maar dan extremer. Sociale media zijn een soort ‘internet op steroïden’. De inhoud verandert zo snel dat er moeilijk tegenaan is te archiveren.

Ten tweede moeten webarchivarissen, net als elke organisatie die persoonlijke gegevens opslaat, voldoen aan individuele rechten op privacy, vastgelegd in de Algemene Verordening Gegevensbescherming, en aan beperkingen volgens het auteursrecht.

Het bedrijfsmodel van grote techbedrijven staat haaks op webarchivering voor de publieke zaak. Dat model gaat niet om de verkoop van een dienst (de meeste apps zijn ‘gratis’), maar om de verkoop van data.

Maar belangrijker nog: archiefinstellingen zijn afhankelijk van grote techbedrijven die niet zitten te springen om archivarissen en crawlers op hun platforms binnen te laten. Content op Facebook, bijvoorbeeld, is volgens Geeraert notoir moeilijk vast te leggen, ‘omdat ze telkens de technische structuur van het platform veranderen. Als iemand een methode bedenkt, is die na korte tijd alweer onbruikbaar. ’

Het resultaat is dat bibliotheken die in de jaren nul zijn begonnen met Facebookarchivering, zoals de British Library, de Amerikaanse Library of Congress en het Franse Institut national de l’audiovisuel, het intussen hebben opgegeven.

Hetzelfde lot staat Twitterarchivarissen te wachten. Eind maart veranderde de nieuwe Twitter-eigenaar Elon Musk de voorwaarden voor toegang tot de ‘programmeursachterdeur’ van het platform, de application programming interface of API. Geeraert: ‘De toegang wás al beperkt. Er waren strikte limieten wat betreft het aantal tweets dat je kon archiveren, maar het was tenminste gratis. Nu is het onbetaalbaar geworden voor onderwijsinstellingen, bibliotheken, kranten en omroepen, laat staan voor de gemiddelde burger.’

Reseller-industrie

Het bedrijfsmodel van grote techbedrijven staat haaks op webarchivering voor de publieke zaak. Dat model gaat niet om de verkoop van een dienst (de meeste apps zijn ‘gratis’), maar om de verkoop van data. Niet alleen de persoonlijke data van gebruikers zijn goud waard op de informatiemarkt, ook brede sociale trends zijn dat. Data over het profiel van gebruikers aangevuld met gedetailleerde informatie over het grote plaatje van de markt vormen een lucratieve industrie.

Sophie Ham noemt het de ‘reseller-industrie’. ‘Resellers kopen bij Google, Facebook en Twitter grootschalig data op over hashtags of wat trending is en die verkopen ze door aan allerlei soorten bedrijven die meer producten of diensten willen verkopen.’ In theorie gaat dat om elk bedrijf met een doelgroep die online actief is – een enorme wereldwijde markt dus. BoldData, een databedrijf uit Amsterdam, kan zich volgens de vergelijkwebsite datarade.ai – een soort Independer voor datahandelaren – tot een van de grootste resellers ter wereld rekenen.

Het lijkt wel alsof Twitter zich onder Elon Musk ineens bewust is geworden van het onbenutte kapitaal van het platform. De API was immers onder bepaalde voorwaarden vrijelijk te gebruiken door onderzoekers en dat kostte geen geld. Momenteel hangt er aan het goedkoopste abonnement voor toegang tot de Twitter-API een prijskaartje van 42.000 dollar per maand.

Hiermee komt een potentieel belangrijke bron van informatie voor journalisten, wetenschappers en rechters achter gesloten deuren of, in ieder geval, achter een deur waarvoor je een duur ticket nodig hebt om binnen te komen.

Het werpt de vraag op wie bepaalt wat we mogen bewaren van alles wat zich online afspeelt. Of, met andere woorden, wie bepaalt wat we straks nog weten van onze communicatie, onze taal, onze digitale creaties en cultuur: van wat er gebeurt in onze samenleving?

404. Deze pagina bestaat niet meer

Als het aan werelderfgoedorganisatie UNESCO ligt, erkennen we de waarde van ‘digitaal-geboren’ materiaal – websites en content die alleen in digitale vorm bestaan – voor de samenleving en handelen we dienovereenkomstig. In 2009 publiceerde UNESCO een speciaal convenant, het Charter on the Preservation of Digital Heritage, dat het belang van ‘digitaal erfgoed’ benadrukt en oproept tot actie om webmateriaal te archiveren.

Jaarlijks roept UNESCO bijzondere collecties uit tot digitaal werelderfgoed en reikt het prijzen uit aan de organisaties die ze aanleggen. De KB kreeg zo’n onderscheiding, voor de collectie van kopieën die het maakte van de XS4ALL-homepagina’s, waarin tienduizenden Nederlanders in de jaren negentig experimenteerden met het toen kersverse wereldwijde web. Zien hoe mensen stoeiden met tekst, de eerste korrelige afbeeldingen online zetten, en het internet helemaal naar hun smaak inrichtten, geeft een inkijkje in de experimentele internetcultuur van de jaren negentig.

Als de KB er niet was geweest, waren ze foetsie.

Als het IIPC er niet was geweest, dat grootschalige webcollecties maakte over de coronapandemie en over de oorlog in Oekraïne, was onze kennis daarover over een jaar of tien gering. En als Internet Archive er niet was geweest, was ook het bericht van Igor Girkin die dacht dat hij een AN-46 had neergehaald, in rook opgegaan.

Volgens Brewster Kahle is een webarchief een soort digitale versie van de beroemde bibliotheek van Alexandrië uit het Oude Egypte. Trekken we die vergelijking door, dan zijn alle keren dat je de foutmelding ‘404. Deze pagina bestaat niet meer.’ op je scherm ziet, vergelijkbaar met de vlammen die de bibliotheek deden afbranden.