Merendeel prominente chatbots overdrijft wetenschappelijke resultaten

ChatGPT wordt vaak om samenvattingen gevraagd, maar hoe accuraat zijn die eigenlijk?

AI-chatbots ChatGPT en DeepSeek geopend op een telefoon. Foto: Solen Feyissa, via Unsplash

Het lijkt zo handig: ChatGPT of een andere chatbot vragen om een paper of wetenschappelijk rapport samen te vatten. Maar tot wel 73 procent van de gevallen genereren deze grote taalmodellen (large language models of LLM鈥檚) onjuiste conclusies. Dat blijkt uit een nieuwe studie van Uwe Peters (乐鱼后台) en (Western University en University of Cambridge).

Bijna 5000 samenvattingen geanalyseerd

De onderzoekers testten de tien meest prominente LLM鈥檚, waaronder ChatGPT, DeepSeek, Claude en LLaMA. 鈥淲e voerden abstracts en artikelen uit toonaangevende wetenschappelijke tijdschriften in, zoals Nature, Science en The Lancet,鈥 vertelt Peters, 鈥渆n vroegen de taalmodellen deze samen te vatten. Onze hoofdvraag: hoe nauwkeurig zijn de samenvattingen die ze genereren?鈥

鈥淚n een jaar verzamelden we 4900 samenvattingen. Toen we deze analyseerden, bleek dat zes van de tien modellen beweringen uit de oorspronkelijke teksten systematisch overdreven. Vaak ging het om subtiele verschillen, maar nuances kunnen in de wetenschap van cruciaal belang zijn.鈥

Zo veranderden LLM鈥檚 voorzichtige beweringen in de verleden tijd in algemenere uitspraken in de tegenwoordige tijd. 鈥楧e behandeling was effectief in dit onderzoek鈥 werd bijvoorbeeld 鈥楧e behandeling is effectief鈥. 鈥淶ulke aanpassingen kunnen lezers misleiden鈥, waarschuwt Chin-Yee. 鈥淶e kunnen de indruk wekken dat de resultaten breder toepasbaar zijn dan daadwerkelijk het geval is.鈥

Toen we om meer nauwkeurigheid vroegen, overdreven de chatbots juist v谩ker.

De onderzoekers vergeleken de gegenereerde samenvattingen ook met die van mensen. Wat bleek? Chatbots generaliseerden bijna vijf keer vaker dan menselijke schrijvers.

Verzoeken om nauwkeurigheid werkten averechts

Peters en Chin-Yee hebben geprobeerd om LLM鈥檚 nauwkeurigere samenvattingen te laten genereren. Ze vroegen de chatbots onder andere om fouten te vermijden. 鈥淭oen genereerden ze echter juist v谩ker overdreven conclusies鈥, zegt Peters. 鈥淶elfs bijna twee keer zo vaak als bij simpele samenvattingsopdrachten.鈥

鈥淒at is verontrustend. Studenten, onderzoekers en beleidsmakers gaan er mogelijk vanuit dat ze een betrouwbaardere samenvatting krijgen als ze ChatGPT vragen om nauwkeurig te zijn. Ons onderzoek laat precies het tegenovergestelde zien.鈥

Nieuwere AI-modellen, zoals ChatGPT-4o en DeepSeek, presteerden nog slechter.

Waarom generaliseren chatbots?

鈥淢ogelijk nemen LLM鈥檚 de neiging om bredere claims te maken over uit de teksten waarmee ze worden getraind鈥, legt Chin-Yee uit. Hij verwijst naar . 鈥淢enselijke experts trekken ook vaak algemenere conclusies, van westerse voorbeelden naar alle mensen bijvoorbeeld.鈥

鈥淰eel van de originele artikelen bevatten echter geen problem谩tische generalisaties, maar de samenvattingen dan ineens wel鈥, vult Peters aan. 鈥淓n wat het nog zorgwekkender maakt is dat nieuwere AI-modellen als ChatGPT-4o en DeepSeek slechter presteerden dan oudere versies.鈥

Een andere reden voor de overgeneralisatie ligt mogelijk in de interacties tussen LLM鈥檚 en gebruikers. 鈥淢enselijke gebruikers die werken aan de fine-tuning van de modellen geven wellicht de voorkeur aan bepaalde antwoorden, zoals reacties die behulpzaam en breed toepasbaar klinken. Zo kunnen de modellen leren om de voorkeur te geven aan dat soort reacties 鈥 zelfs als dat ten koste gaat van de nauwkeurigheid.鈥

Er is een re毛el risico dat AI-gegenereerde samenvattingen desinformatie verspreiden.

Hoe worden samenvattingen betrouwbaarder?

鈥淎ls we willen dat AI wetenschappelijke geletterdheid bevordert in plaats van ondermijnt, moeten we waakzamer zijn en LLM鈥檚 testen in de context van de wetenschapscommunicatie鈥, zegt Peters.

鈥淥mdat de modellen al op grote schaal worden ingezet voor wetenschappelijke samenvattingen, hebben ze een grote impact op de verspreiding van wetenschap. Zonder goed toezicht bestaat er een re毛el risico dat AI-gegenereerde wetenschappelijke samenvattingen desinformatie verspreiden of onzekere wetenschap als voldongen feit presenteren.鈥

Mocht je toch een chatbot willen gebruiken om een tekst samen te vatten, raden de onderzoekers aan om modellen als Claude te gebruiken. Deze LLM scoorde het hoogst op nauwkeurigheid. Het kan ook helpen om te vragen om indirecte formuleringen in de verleden tijd en, als je kunt programmeren, om de 鈥榯emperatuur鈥 (de creativiteitsinstelling van chatbots) lager te zetten.

Lees meer over het onderzoek van Uwe Peters en Benjamin Chin-Yee