OccuBench: Avaliando Agentes de IA em Tarefas Profissionais do Mundo Real por meio de Modelos de Mundo de Linguagem

Resumo

Espera-se que os agentes de IA realizem trabalho profissional em centenas de domínios ocupacionais (desde o triagem em departamentos de emergência até ao monitoramento de segurança de reactores nucleares e processamento de importações aduaneiras), no entanto, os benchmarks existentes só podem avaliar agentes nos poucos domínios onde existem ambientes públicos. Apresentamos o OccuBench, um benchmark que abrange 100 cenários de tarefas profissionais do mundo real em 10 categorias de indústria e 65 domínios especializados, possibilitado por Modelos de Mundo de Linguagem (LWMs) que simulam ambientes específicos de domínio através da geração de respostas de ferramentas orientadas por LLM. O nosso pipeline de síntese multiagente produz automaticamente instâncias de avaliação com solvabilidade garantida, dificuldade calibrada e diversidade fundamentada em documentos. O OccuBench avalia os agentes ao longo de duas dimensões complementares: conclusão de tarefas em domínios profissionais e robustez ambiental sob injeção controlada de falhas (erros explícitos, degradação implícita de dados e falhas mistas). Avaliamos 15 modelos de fronteira de 8 famílias de modelos e descobrimos que: (1) nenhum modelo único domina todas as indústrias, pois cada um tem um perfil distinto de capacidade ocupacional; (2) as falhas implícitas (dados truncados, campos em falta) são mais difíceis do que os erros explícitos (timeouts, erros 500) e falhas mistas, porque carecem de sinais de erro evidentes e exigem que o agente detete independentemente a degradação de dados; (3) modelos maiores, gerações mais recentes e maior esforço de raciocínio melhoram consistentemente o desempenho. O GPT-5.2 melhora 27,5 pontos do esforço de raciocínio mínimo ao máximo; e (4) agentes fortes não são necessariamente simuladores de ambiente fortes. A qualidade do simulador é crítica para a fiabilidade da avaliação baseada em LWM. O OccuBench fornece a primeira avaliação sistemática transversal à indústria de agentes de IA em tarefas ocupacionais profissionais.

English

AI agents are expected to perform professional work across hundreds of occupational domains (from emergency department triage to nuclear reactor safety monitoring to customs import processing), yet existing benchmarks can only evaluate agents in the few domains where public environments exist. We introduce OccuBench, a benchmark covering 100 real-world professional task scenarios across 10 industry categories and 65 specialized domains, enabled by Language World Models (LWMs) that simulate domain-specific environments through LLM-driven tool response generation. Our multi-agent synthesis pipeline automatically produces evaluation instances with guaranteed solvability, calibrated difficulty, and document-grounded diversity. OccuBench evaluates agents along two complementary dimensions: task completion across professional domains and environmental robustness under controlled fault injection (explicit errors, implicit data degradation, and mixed faults). We evaluate 15 frontier models across 8 model families and find that: (1) no single model dominates all industries, as each has a distinct occupational capability profile; (2) implicit faults (truncated data, missing fields) are harder than both explicit errors (timeouts, 500s) and mixed faults, because they lack overt error signals and require the agent to independently detect data degradation; (3) larger models, newer generations, and higher reasoning effort consistently improve performance. GPT-5.2 improves by 27.5 points from minimal to maximum reasoning effort; and (4) strong agents are not necessarily strong environment simulators. Simulator quality is critical for LWM-based evaluation reliability. OccuBench provides the first systematic cross-industry evaluation of AI agents on professional occupational tasks.

OccuBench: Avaliando Agentes de IA em Tarefas Profissionais do Mundo Real por meio de Modelos de Mundo de Linguagem

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Resumo

Support