De risico’s van internetarchieven
Dat de Amerikaanse inlichtingendienst FBI Archive.today strafrechtelijk onderzoekt, was al bekend. Dat ook Wikipedia een probleem heeft met het internetarchief (bron https://arstechnica.com/tech-policy/2026/02/wikipedia-bans-archive-today-after-site-executed-ddos-and-altered-web-captures/) is een nieuwe ontwikkeling. Niet alleen zouden de mensen achter Archive.today zich schuldig maken aan het uitvoeren van DDoS-aanvallen, ook hebben ze geknoeid met de inhoud van gearchiveerde pagina’s. Een goed moment dus om nog eens na te denken over hoe wij materiaal archiveren in een OSINT-onderzoek. Â
De haken en ogen van Archive.today
Naast de Wayback Machine van The Internet Archive is Archive.today waarschijnlijk het meest bekende andere platform waar internetgebruikers historische webpagina’s kunnen raadplegen en kunnen laten archiveren. Hoewel beide een waardevolle bron zijn voor historisch onderzoek, zitten er ook haken en ogen aan. Â
In het bijzonder is dat nu het geval met Archive.today nadat de naam van blogger Jani Patokallio, die schreef over hoe de eigenaar van het internetarchief zich hult in anonimiteit, verscheen op gearchiveerde pagina’s waar die van origine niet stond. De eigenaar van Archive.today lijkt dit te hebben gedaan omdat de blogposts van Patokallio hen onwelgevallig waren. Zeer problematisch, want we moeten uit kunnen gaan van de validiteit van de gearchiveerde pagina’s. Â
Afhankelijkheid
Breder bekeken dan dit specifieke geval, zijn er meer risico’s denkbaar in het gebruik van internetarchieven. Als we het archiveren van materiaal uitbesteden aan zo’n partij zijn we afhankelijk van de beschikbaarheid van dat platform. Naast bovengenoemde problemen met Archive.today is het feit dat het van een particuliere eigenaar ook een risico. Als de eigenaar de stekker uit het archief trekt, kunnen we die immers niet meer raadplegen. Hoe meer we zelf (lokaal) opslaan, hoe toekomstbestendiger ons onderzoek. Â
Derde partijen
Daarnaast maken we gebruik van een derde partij. Elke keer dat we archieven raadplegen of een URL aanleveren om te archiveren, delen we informatie over waar we mee bezig zijn met die partijen. Ook juridisch kan dit onwenselijk zijn, we laten immers iemand meekijken die niet betrokken is bij ons onderzoek. Beter is dan, wederom, om zoveel mogelijk zelf te archiveren en niet uit te besteden aan een tussenpersoon. Â
Beperkte effectiviteit
Ook niet onbelangrijk is de beperkte effectiviteit als het aankomt op het archiveren van bepaalde, vaak dynamische, webpagina’s. Met name socialemediaplatformen worden niet altijd even goed gearchiveerd door de bekende internetarchieven. Als we een socialemediapost moeten vastleggen, kunnen we dat het beste dan ook zelf doen.Â
Zelf content archiveren
Gelukkig zijn er talloze manieren om pagina’s en andere content te archiveren. We kunnen bijvoorbeeld een pagina als html-bestand opslaan, recht vanuit onze browser. Hiervoor zijn ook extensies te gebruiken zoals een SingleFile of DownThemAll!. Schermafbeeldingen zijn ook een effectieve manier van het vastleggen wat we tegenkomen op het internet. Wat betreft foto’s en video’s kunnen we gebruik maken van CLI-tools als yt-dlp of gaan rondneuzen in de pagina-elementen of het netwerkverkeer tussen ons en de website. Meer over het archiveren van beeldmateriaal leer je in onze OSINT-trainingen.
