Impliciete Intelligentie – Het Evalueren van Agenten op Basis van Wat Gebruikers Niet Zeggen

Samenvatting

Echte verzoeken aan AI-agenten zijn fundamenteel ondergespecificeerd. Menselijke communicatie steunt op gedeelde context en onuitgesproken beperkingen die sprekers verwachten dat luisteraars kunnen afleiden. Huidige benchmarks voor agenten testen het opvolgen van expliciete instructies, maar evalueren niet of agenten kunnen redeneren over impliciete vereisten zoals toegankelijkheidsbehoeften, privacygrenzen, catastrofale risico's en contextuele beperkingen. Wij presenteren Impliciete Intelligentie, een evaluatiekader dat test of AI-agenten verder kunnen gaan dan prompt-volgen om echte doelstellingsvervullers te worden, samen met Agent-as-a-World (AaW), een raamwerk waarin interactieve werelden worden gedefinieerd in menselijk leesbare YAML-bestanden en gesimuleerd door taalmodelen. Onze scenario's kenmerken zich door schijnbare eenvoud in gebruikersverzoeken, verborgen complexiteit in correcte oplossingen, en ontdekbaarheid van beperkingen door omgevingsexploratie. Na evaluatie van 16 voorhoede- en open-weight modellen over 205 scenario's, blijkt dat zelfs het best presterende model slechts 48,3% scenariosucces behaalt, wat een aanzienlijke verbeteringsruimte onthult in het overbruggen van de kloof tussen letterlijke instructie-opvolging en mensachtig contextueel redeneren.

English

Real-world requests to AI agents are fundamentally underspecified. Natural human communication relies on shared context and unstated constraints that speakers expect listeners to infer. Current agentic benchmarks test explicit instruction-following but fail to evaluate whether agents can reason about implicit requirements spanning accessibility needs, privacy boundaries, catastrophic risks, and contextual constraints. We present Implicit Intelligence, an evaluation framework testing whether AI agents can move beyond prompt-following to become genuine goal-fulfillers, paired with Agent-as-a-World (AaW), a harness where interactive worlds are defined in human-readable YAML files and simulated by language models. Our scenarios feature apparent simplicity in user requests, hidden complexity in correct solutions, and discoverability of constraints through environmental exploration. Evaluating 16 frontier and open-weight models across 205 scenarios, we find that even the best-performing model achieves only 48.3% scenario pass rate, revealing substantial room for improvement in bridging the gap between literal instruction-following and human-like contextual reasoning.

Impliciete Intelligentie – Het Evalueren van Agenten op Basis van Wat Gebruikers Niet Zeggen

Implicit Intelligence -- Evaluating Agents on What Users Don't Say

Samenvatting

Support