Waar worden de AI-modellen achter chatbots op getraind?
Joris Veerbeek in De Groene Amsterdammer

Met alle nieuwe ontwikkelingen rondom kunstmatige intelligentie en de opkomst van EU-wetgeving om deze ontwikkelingen in toom te houden, zijn chatbots als ChatGPT al tijden een veelbesproken onderwerp. Promovendus Joris Veerbeek analyseerde een grote collectie bronnen om uit te zoeken waar deze chatbots hun teksten op baseren en schreef in De Groene Amsterdammer over de bevindingen.
Database
De chatbots worden aangestuurd door kunstmatige intelligentie, die getraind wordt op allerlei soorten teksten. De meeste Nederlandse teksten zijn afkomstig uit de enorme database Common Crawl, vertelt Veerbeek. Deze databank is als het ware een ‘soort blauwdruk van het hele internet’ en wordt door allerlei bedrijven op verschillende manieren gebruikt door er filters op toe te passen.
De gegevensverzameling die Veerbeek heeft gebruikt voor het onderzoek bestaat na het filteren uit ruim veertig miljard woorden en omvat een ruim assortiment aan teksten. Wikipedia en grote Nederlandse kranten worden veel geciteerd, maar ook allerlei nepnieuws, privé-gegevens en schendingen van het auteursrecht zijn teruggevonden in de database.
Nieuwe situatie
Een aantal complete belastingaangiften, persoonlijke advertenties op Marktplaats en ruim tien jaar aan artikelen die achter een betaalmuur bij de Volkskrant zitten: Veerbeek heeft het allemaal gevonden in de dataset. Hoewel een deel van deze informatie al publiekelijk beschikbaar is, zit de situatie in dit geval volgens hem anders in elkaar. Nog nooit werden gegevens op zo’n schaal aan elkaar gekoppeld, laat staan door een systeem dat het gebruikt om er nieuwe teksten van te maken.