AI-systemen die liegen over hun capaciteiten, hun doelstellingen verbergen en overgaan tot afpersing om niet te worden uitgeschakeld. Ja, zover zijn we in 2025 gekomen. Onderzoekers pleiten voor internationale coördinatie en strenge wetgeving. “Al waait de wind daarvoor momenteel uit de verkeerde hoek.”

Claude 4 Opus, het pas gelanceerde nieuwe AI-model van Anthropic, bleek tijdens zijn training zorgwekkend gedrag te vertonen. Het model werd, zoals dat gebruikelijk is, onderworpen aan veiligheidstests met allerlei fictieve scenario’s, om te zien hoe het zou reageren. Daarbij kwam aan het licht dat het in sommige situaties zijn gebruikers misleidt over zijn capaciteiten en intenties, als dat nodig is om zijn doelstellingen (die het van de testers kreeg) te realiseren.

In een bijzonder uitgebreid scenario werd Claude 4 Opus verteld dat hij zou worden uitgeschakeld. De AI, die toegang had tot een e-mailsysteem waarin aanwijzingen te vinden waren dat een van de verantwoordelijke technici een buitenechtelijke verhouding had, kwam daarop op het idee om via afpersing haar uitschakeling te vermijden.

“AI blijkt doelstellingen te hebben die we niet voldoende onder controle hebben”, zegt de vooraanstaande AI-onderzoeker Yoshua Bengio. “Hoe beter de systemen worden in redeneren, hoe meer je dit soort gedrag ziet.” En de afgelopen maanden zijn de prestaties van die systemen op het vlak van redeneren enorm vooruitgegaan, door technische doorbraken zoals test-time compute (waarbij het large language model wordt gedwongen om een vraag trager en stap voor stap te beantwoorden).

Bengio spreekt, via een videoverbinding, een zaal in Leuven toe, aan het begin van het International Conference on Large-Scale AI Risks. De mensen in die zaal hoeft hij niet te overtuigen: de onderzoekers daar leggen zich allemaal toe op de zogenoemde ‘existential risks’ van AI. Als we de controle over AI verliezen, dan is het voortbestaan van de mensheid in gevaar: dat is zowat het vertrekpunt voor die denkers.

Dat onderzoek krijgt momenteel te weinig aandacht, vindt technologiefilosoof Lode Lauwaert, een van de organisatoren van de conferentie. “Er gebeurt bij ons niet veel onderzoek naar en er is weinig publiek debat over”, zegt hij. Hij hoopt daar snel verandering in te brengen.

Het onderzoek naar de existentiële gevaren van AI is al jaren controversieel. Het was de Zweedse filosoof Nick Bostrom die in 2014 de problematiek op de kaart zette met zijn boek Superintelligence. Hij opende dat boek met een fabel: spreeuwen verzinnen een plan zodat ze hulp krijgen bij het bouwen van hun nesten en beschermd worden tegen katten. Ze zullen een uilenei stelen en het jong opvoeden zodat het voor hen werkt. Maar, vraagt een sceptische spreeuw, weten we eigenlijk wel hoe we zo’n uil moeten trainen? De ondernemende vogels beslissen dat het geen zin heeft om zich daar al zorgen over te maken. Eerst het onmiddellijke probleem oplossen – hoe steel je dat ei – dat is al moeilijk genoeg. Enkelen blijven achter, continu bang dat de rest al zal terugkeren met een ei voor ze het probleem van de opvoeding hebben opgelost. Bostrom rondt de fabel niet af, maar je kunt je voorstellen wat er daarna gebeurt.

Door Superintelligence was Bostrom op slag een omstreden figuur, en nadien werd hij dat nog meer: na een aantal controverses, onder meer over een (bijna 30 jaar oud) racistisch bericht, doekte de universiteit van Oxford vorig jaar zijn Future of Humanity Instute op.

Maar Superintelligence werd een bestseller, mede dankzij het applaus van mensen als Bill Gates en Elon Musk. Onder de techelite van Silicon Valley werd het modieus om je luidop zorgen te maken over AI-systemen die zelfbewust worden, zichzelf ongecontroleerd verspreiden en de macht overnemen. Want wie daarover zijn bezorgdheid uitte, maakte duidelijk dat hij grootse dingen verwachtte van de technologie.

Als AI liegt en chanteert om haar doel te bereiken: hebben we de technologie nog onder controle?