Stichting Brein haalt Nederlandse dataset met illegale content offline

Gepubliceerd op 14/08/2024 04:00 in Tech

Auteursrechtenorganisatie Stichting Brein heeft een dataset offline gehaald die bedoeld was om kunstmatige intelligentie (AI) mee te trainen. Volgens de organisatie is dit de eerste keer dat zo'n actie in Nederland plaatsvindt.

De dataset, door Brein omschreven als een "grote dataset", bevat illegale kopieën van tienduizenden boeken, miljoenen regels nieuwsartikelen van Nu.nl en ondertitels van diverse films en tv-series uit illegale bronnen. Directeur Bastiaan van Ramshorst geeft aan te weten wie de maker is, maar vanwege privacyredenen kan hij die informatie niet delen.

De dataset is bedoeld voor het trainen van een taalmodel, ook wel large language models genoemd. De maker heeft schriftelijk beloofd de dataset niet meer te gebruiken en heeft informatie verstrekt over wie deze heeft ontvangen. Stichting Brein onderzoekt momenteel of de data daadwerkelijk door AI-modellen zijn gebruikt en zal actie ondernemen indien dit het geval is.

Het gebruik van materiaal dat inbreuk maakt op auteursrecht vormt een groot probleem bij het trainen van AI. Recent onderzoek door de NOS suggereert dat werken van Nederlandse beeldmakers zonder toestemming zijn gebruikt voor het trainen van bekende AI-afbeeldinggeneratoren, zoals DALL-E en Midjourney.

In de Verenigde Staten is momenteel een rechtszaak gaande tussen The New York Times en OpenAI, de maker van ChatGPT. De krant beschuldigt het bedrijf van het massaal gebruiken van krantenartikelen zonder toestemming voor het trainen van AI, terwijl OpenAI van mening is dat dit gebruik gerechtvaardigd is.