ChatPaper.aiChatPaper

OccuBench : Évaluation des agents d'IA sur des tâches professionnelles réelles via des modèles de monde linguistique

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

April 13, 2026
Auteurs: Xiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
cs.AI

Résumé

On s'attend à ce que les agents IA effectuent des travaux professionnels dans des centaines de domaines professionnels (du triage aux urgences à la surveillance de la sécurité des réacteurs nucléaires en passant par le traitement des importations douanières), pourtant les benchmarks existants ne peuvent évaluer les agents que dans les quelques domaines où des environnements publics existent. Nous présentons OccuBench, un benchmark couvrant 100 scénarios de tâches professionnelles réelles répartis dans 10 catégories industrielles et 65 domaines spécialisés, rendu possible par les Modèles de Monde Langagier (LWM) qui simulent des environnements spécifiques à un domaine via la génération de réponses d'outils pilotée par LLM. Notre pipeline de synthèse multi-agents produit automatiquement des instances d'évaluation avec une solvabilité garantie, une difficulté calibrée et une diversité ancrée dans des documents. OccuBench évalue les agents selon deux dimensions complémentaires : l'exécution des tâches à travers les domaines professionnels et la robustesse environnementale sous injection contrôlée de fautes (erreurs explicites, dégradation implicite des données et fautes mixtes). Nous évaluons 15 modèles de pointe issus de 8 familles de modèles et constatons que : (1) aucun modèle unique ne domine toutes les industries, chacun ayant un profil de compétence professionnelle distinct ; (2) les fautes implicites (données tronquées, champs manquants) sont plus difficiles que les erreurs explicites (timeouts, erreurs 500) et les fautes mixtes, car elles manquent de signaux d'erreur évidents et exigent que l'agent détecte indépendamment la dégradation des données ; (3) les modèles plus grands, les générations plus récentes et un effort de raisonnement plus élevé améliorent systématiquement les performances. GPT-5.2 s'améliore de 27,5 points entre un effort de raisonnement minimal et maximal ; et (4) les agents performants ne sont pas nécessairement de bons simulateurs d'environnement. La qualité du simulateur est cruciale pour la fiabilité de l'évaluation basée sur les LWM. OccuBench fournit la première évaluation systématique intersectorielle des agents IA sur des tâches professionnelles.
English
AI agents are expected to perform professional work across hundreds of occupational domains (from emergency department triage to nuclear reactor safety monitoring to customs import processing), yet existing benchmarks can only evaluate agents in the few domains where public environments exist. We introduce OccuBench, a benchmark covering 100 real-world professional task scenarios across 10 industry categories and 65 specialized domains, enabled by Language World Models (LWMs) that simulate domain-specific environments through LLM-driven tool response generation. Our multi-agent synthesis pipeline automatically produces evaluation instances with guaranteed solvability, calibrated difficulty, and document-grounded diversity. OccuBench evaluates agents along two complementary dimensions: task completion across professional domains and environmental robustness under controlled fault injection (explicit errors, implicit data degradation, and mixed faults). We evaluate 15 frontier models across 8 model families and find that: (1) no single model dominates all industries, as each has a distinct occupational capability profile; (2) implicit faults (truncated data, missing fields) are harder than both explicit errors (timeouts, 500s) and mixed faults, because they lack overt error signals and require the agent to independently detect data degradation; (3) larger models, newer generations, and higher reasoning effort consistently improve performance. GPT-5.2 improves by 27.5 points from minimal to maximum reasoning effort; and (4) strong agents are not necessarily strong environment simulators. Simulator quality is critical for LWM-based evaluation reliability. OccuBench provides the first systematic cross-industry evaluation of AI agents on professional occupational tasks.
PDF461April 17, 2026