ChatPaper.aiChatPaper

OccuBench: Evaluación de Agentes de IA en Tareas Profesionales del Mundo Real mediante Modelos de Mundo Lingüístico

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

April 13, 2026
Autores: Xiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
cs.AI

Resumen

Se espera que los agentes de IA realicen trabajo profesional en cientos de dominios ocupacionales (desde la clasificación de pacientes en urgencias hasta la monitorización de seguridad de reactores nucleares o el procesamiento de importaciones aduaneras); sin embargo, los puntos de referencia existentes solo pueden evaluar agentes en los pocos dominios donde existen entornos públicos. Presentamos OccuBench, un punto de referencia que abarca 100 escenarios de tareas profesionales del mundo real en 10 categorías industriales y 65 dominios especializados, habilitado por Modelos de Mundo Lingüístico (LWM, por sus siglas en inglés) que simulan entornos específicos de dominio mediante la generación de respuestas de herramientas impulsada por LLM. Nuestra canalización de síntesis multiagente produce automáticamente instancias de evaluación con solucionabilidad garantizada, dificultad calibrada y diversidad fundamentada en documentos. OccuBench evalúa a los agentes en dos dimensiones complementarias: la finalización de tareas en dominios profesionales y la robustez ambiental bajo inyección controlada de fallos (errores explícitos, degradación implícita de datos y fallos mixtos). Evaluamos 15 modelos de vanguardia de 8 familias de modelos y encontramos que: (1) ningún modelo domina todas las industrias, ya que cada uno tiene un perfil distinto de capacidad ocupacional; (2) los fallos implícitos (datos truncados, campos faltantes) son más difíciles que los errores explícitos (tiempos de espera agotados, errores 500) y los fallos mixtos, porque carecen de señales de error evidentes y requieren que el agente detecte de forma independiente la degradación de los datos; (3) los modelos más grandes, las generaciones más nuevas y un mayor esfuerzo de razonamiento mejoran consistentemente el rendimiento. GPT-5.2 mejora en 27.5 puntos desde un esfuerzo de razonamiento mínimo a uno máximo; y (4) los agentes fuertes no son necesariamente simuladores de entorno fuertes. La calidad del simulador es crítica para la fiabilidad de la evaluación basada en LWM. OccuBench proporciona la primera evaluación sistemática cross-industrial de agentes de IA en tareas profesionales ocupacionales.
English
AI agents are expected to perform professional work across hundreds of occupational domains (from emergency department triage to nuclear reactor safety monitoring to customs import processing), yet existing benchmarks can only evaluate agents in the few domains where public environments exist. We introduce OccuBench, a benchmark covering 100 real-world professional task scenarios across 10 industry categories and 65 specialized domains, enabled by Language World Models (LWMs) that simulate domain-specific environments through LLM-driven tool response generation. Our multi-agent synthesis pipeline automatically produces evaluation instances with guaranteed solvability, calibrated difficulty, and document-grounded diversity. OccuBench evaluates agents along two complementary dimensions: task completion across professional domains and environmental robustness under controlled fault injection (explicit errors, implicit data degradation, and mixed faults). We evaluate 15 frontier models across 8 model families and find that: (1) no single model dominates all industries, as each has a distinct occupational capability profile; (2) implicit faults (truncated data, missing fields) are harder than both explicit errors (timeouts, 500s) and mixed faults, because they lack overt error signals and require the agent to independently detect data degradation; (3) larger models, newer generations, and higher reasoning effort consistently improve performance. GPT-5.2 improves by 27.5 points from minimal to maximum reasoning effort; and (4) strong agents are not necessarily strong environment simulators. Simulator quality is critical for LWM-based evaluation reliability. OccuBench provides the first systematic cross-industry evaluation of AI agents on professional occupational tasks.
PDF461April 17, 2026