Hoe praat je efficiënt met AI-modellen? Experten waarschuwen dat de ‘oude’ manieren om prompts te geven niet langer zomaar opgaan. De nieuwste modellen, die ‘redeneren’ door prompts in vele stapjes uit te werken, reageren naar verluidt niet goed wanneer je ze nog eens expliciet wil opleggen in stapjes te ‘denken’.
Welk model?
Denk na over welk model je wil gebruiken. Gaat het over tekstgeneratie en creatieve taken, dan kan bij OpenAI, de maker van ChatGPT, een model zoals GPT-4.5 of GPT-4o een goede keuze zijn. Voor analyse en logische redeneringen zijn er tegenwoordig redenerende modellen. Redeneermodellen trekken extra tijd uit om voorgelegde vraagstukken stapje per stapje te behandelen vooraleer tot een conclusie te komen. Zij munten uit in wiskunde, wetenschappen en programmeren. Zij doen het ook goed bij complexere vragen over economie, beleid, politiek, filosofie en ethiek.
Bij OpenAI gaat het over modellen die met een ‘o’ beginnen: o1, o3-mini, o3-mini-high, o1 pro mode. Bij de chatbot ChatGPT kan je bovenaan het scherm zien tot welke modellen je toegang hebt; dat hangt af van je abonnement.
Bij de concurrentie is bijvoorbeeld het model R1 van het Chinese DeepSeek zo’n redeneermodel net zoals het eveneens Chinese Qwen 2.5-Max. In de VS zijn er naast de modellen van OpenAI onder meer ook nog Claude 3.5 Sonnet van Anthropic, Grok 3 Beta van X en Google Gemini 2 Flash Thinking.
Prompten
Bij prompttechnieken gaan we soms een onderscheid moeten maken tussen redeneermodellen en de overige modellen.
Bij rolprompting vraag je het model een bepaalde rol te spelen. ‘Je bent een ervaren onderzoeksjournalist gespecialiseerd in financiële criminaliteit. Je bent sceptisch en nauwkeurig in je verslaggeving’, kan zo’n prompt zijn. Geef daarbij ook de nodige context mee, zoals ‘Ik schrijf voor blad X voor een publiek van jongeren zonder voorkennis over dit onderwerp. Leg accuraat uit, maar zo dat mijn publiek mee is.’ Dit is nuttig bij alle modellen.
Stijlprompts vertellen het model welke stijl het moet hanteren. Bijvoorbeeld: ‘Wervende inleiding in informele blogtoon’. Ook dit moet je aan alle modellen duidelijk maken.
Bij zero-shotprompts versus few-shotprompts is het dan weer wel van belang of je met een redeneermodel werkt of niet. Zero-shot wil zeggen dat je geen voorbeelden geeft, bij few-shot geef je voorbeelden van het gewenste resultaat. Bij redeneermodellen zijn few-shotprompts doorgaans niet nodig zijn. Bij complexere opdrachten misschien wel, maar dan moeten die voorbeelden heel nauw aansluiten bij de prompt, zo legt OpenAI uit. Anders lijkt het redeneermodel overdonderd te geraken door de informatie en verslechteren de resultaten.
Chain-of-Thought (CoT) zijn prompts zoals ‘denk stap voor stap na’. Je krijgt dan meer kwalitatieve antwoorden bij onderwerpen die analyse vergen. Maar opgelet, dit geldt meestal niet voor redeneermodellen. Volgens OpenAI en tal van experten presteren redeneermodellen het best bij korte, duidelijke instructies. ‘Leg stap per stap uit hoe je tot het eindresultaat, het artikel, komt’, is een overbodige extra instructie voor een redeneermodel want het denkt toch al stap voor stap. Met zo’n ingewikkelde prompt kan de prestatie van een dergelijk model zelfs verslechteren. Micromanagement brengt niet enkel journalisten van slag, ook redeneermodellen vinden het niet leuk.
We vragen aan het model ChatGPT o3-mini domweg ‘schrijf een artikel over de toekomst van kwantumcomputing’. Dat vergelijken we met ‘schrijf een artikel over de toekomst van kwantumcomputing. Leg stap per stap uit hoe je tot het eindresultaat, het artikel, komt’. Bij die tweede prompt toont o3-mini eerst het artikel en dan de stappen die het nam om tot het eindresultaat te komen. Het blijkt inderdaad dat het eerste artikel, het resultaat van de eenvoudige prompt, beter is. Wanneer we deze oefening doen met een model van een net iets vroegere generatie, GPT-4o, dan zien we het omgekeerde. De prompt die vraagt de stappen weer te geven, scoort voor dat model beter.
Toch is er ruimte voor nuance. Wanneer je onzeker bent over de redenering van het model of wanneer je de toegepaste logica wil verifiëren, is het wel een goed idee om te polsen naar de achterliggende redenering. Maar ook dan is enige terughoudendheid een goed idee bij redeneermodellen: ‘Waarom denk je dat dit beleid effectief zal zijn? Geef een korte uitleg.’
Wat ook werkt is het model aanzetten tot zelfkritiek. ‘Analyseer je eigen nieuwsbericht: waar zou er sprake kunnen zijn van bias of onvolledige informatie? Geef concrete voorbeelden van hoe je bericht beter kan’, kan je bijvoorbeeld aan een prompt toevoegen. Maar ook hier blijkt dat het artikel plots korter is en ontoegankelijker voor de leek. Het lijkt alsof het redeneermodel o3-mini de tijd die het nodig heeft voor de zelfkritiek in mindering brengt van het budget voor het eigenlijke artikel.
OpenAI raadt aan scheidingstekens zoals quote-tekens te gebruiken om verschillende delen van de prompt duidelijk af te bakenen. Wanneer je bijvoorbeeld vraagt een bepaalde tekst te analyseren of uit te leggen, kan je die afbakenen met quotes. Dit geldt overigens ook voor de ‘gewone’ modellen.
Context
Experten zoals Ben Hylak raden aan bij redeneermodellen niet te denken in termen van prompts maar in die van een briefing voor een nieuwe collega. De focus ligt op wat je wil bereiken en minder op hoe het model moet werken. In een gastpost op de blog Latent Space geeft hij een duidelijk voorbeeld. Hij toont hoe hij een redeneermodel een duidelijk doel geeft, een lijst van wandelroutes rond San Francisco. Hij legt uit welke informatie hij precies wil, waarschuwt voor eventuele hallucinaties. Vooral valt op dat hij uitgebreide context meegeeft in de prompt waarin hij vertelt wat hij en zijn partner leuk vinden aan wandeltochten.
Toekomst
Redeneermodellen zijn volgens de AI-bedrijven de toekomst. OpenAI bracht recent nog wel een niet-redeneermodel uit, GPT 4.5, dat snel en in een heel natuurlijke taal moet kunnen converseren met de gebruiker. Het is de bedoeling dit later te combineren met een redeneermodel, mogelijk wordt dat dan het langverwachte GPT-5.
Roland Legrand
(foto: Freepik)