Intelligence implicite — Évaluer les agents sur ce que les utilisateurs ne disent pas

Résumé

Les requêtes réelles adressées aux agents d'IA sont fondamentalement sous-spécifiées. La communication humaine naturelle s'appuie sur un contexte partagé et des contraintes implicites que les locuteurs s'attendent à voir inférées par leurs interlocuteurs. Les benchmarks actuels pour agents évaluent la capacité à suivre des instructions explicites, mais n'évaluent pas si les agents peuvent raisonner sur des exigences implicites couvrant les besoins d'accessibilité, les limites de confidentialité, les risques catastrophiques et les contraintes contextuelles. Nous présentons Implicit Intelligence, un cadre d'évaluation testant si les agents d'IA peuvent dépasser l'exécution littérale de requêtes pour devenir de véritables pourvoyeurs de buts, couplé à Agent-as-a-World (AaW), un environnement où des mondes interactifs sont définis dans des fichiers YAML lisibles par l'homme et simulés par des modèles de langage. Nos scénarios présentent une simplicité apparente dans les requêtes utilisateur, une complexité cachée dans les solutions correctes, et une découvrabilité des contraintes via l'exploration environnementale. L'évaluation de 16 modèles de pointe et open-weight sur 205 scénarios révèle que même le modèle le plus performant n'atteint qu'un taux de réussite de 48,3%, montrant qu'il reste une marge d'amélioration substantielle pour combler l'écart entre le suivi littéral d'instructions et le raisonnement contextuel de type humain.

English

Real-world requests to AI agents are fundamentally underspecified. Natural human communication relies on shared context and unstated constraints that speakers expect listeners to infer. Current agentic benchmarks test explicit instruction-following but fail to evaluate whether agents can reason about implicit requirements spanning accessibility needs, privacy boundaries, catastrophic risks, and contextual constraints. We present Implicit Intelligence, an evaluation framework testing whether AI agents can move beyond prompt-following to become genuine goal-fulfillers, paired with Agent-as-a-World (AaW), a harness where interactive worlds are defined in human-readable YAML files and simulated by language models. Our scenarios feature apparent simplicity in user requests, hidden complexity in correct solutions, and discoverability of constraints through environmental exploration. Evaluating 16 frontier and open-weight models across 205 scenarios, we find that even the best-performing model achieves only 48.3% scenario pass rate, revealing substantial room for improvement in bridging the gap between literal instruction-following and human-like contextual reasoning.

Intelligence implicite — Évaluer les agents sur ce que les utilisateurs ne disent pas

Implicit Intelligence -- Evaluating Agents on What Users Don't Say

Résumé

Support