OccuBench: Valutazione di Agenti IA su Compiti Professionali Reali tramite Modelli Linguistici di Mondo

Abstract

Ci si aspetta che gli agenti di IA svolgano attività professionali in centinaia di ambiti occupazionali (dal triage in pronto soccorso al monitoraggio della sicurezza dei reattori nucleari fino all'elaborazione delle importazioni doganali), eppure i benchmark esistenti possono valutare gli agenti solo nei pochi domini in cui esistono ambienti pubblici. Presentiamo OccuBench, un benchmark che copre 100 scenari di compiti professionali reali in 10 categorie industriali e 65 domini specializzati, reso possibile dai Language World Models (LWM) che simulano ambienti specifici di dominio attraverso la generazione di risposte strumentali guidata da LLM. La nostra pipeline di sintesi multi-agente produce automaticamente istanze di valutazione con solvibilità garantita, difficoltà calibrata e diversità ancorata a documenti. OccuBench valuta gli agenti lungo due dimensioni complementari: il completamento dei compiti attraverso i domini professionali e la robustezza ambientale sotto iniezione controllata di guasti (errori espliciti, degrado implicito dei dati e guasti misti). Valutiamo 15 modelli di frontiera appartenenti a 8 famiglie di modelli e riscontriamo che: (1) nessun singolo modello domina tutte le industrie, poiché ciascuno possiede un profilo distinto di capacità occupazionale; (2) i guasti impliciti (dati troncati, campi mancanti) sono più difficili sia degli errori espliciti (timeout, errori 500) che dei guasti misti, poiché mancano di segnali di errore evidenti e richiedono all'agente di rilevare autonomamente il degrado dei dati; (3) modelli più grandi, generazioni più recenti e uno sforzo di ragionamento più elevato migliorano costantemente le prestazioni. GPT-5.2 migliora di 27,5 punti passando dallo sforzo di ragionamento minimo a quello massimo; e (4) agenti potenti non sono necessariamente simulatori ambientali potenti. La qualità del simulatore è fondamentale per l'affidabilità della valutazione basata su LWM. OccuBench fornisce la prima valutazione sistematica cross-settoriale degli agenti di IA su compiti professionali occupazionali.

English

AI agents are expected to perform professional work across hundreds of occupational domains (from emergency department triage to nuclear reactor safety monitoring to customs import processing), yet existing benchmarks can only evaluate agents in the few domains where public environments exist. We introduce OccuBench, a benchmark covering 100 real-world professional task scenarios across 10 industry categories and 65 specialized domains, enabled by Language World Models (LWMs) that simulate domain-specific environments through LLM-driven tool response generation. Our multi-agent synthesis pipeline automatically produces evaluation instances with guaranteed solvability, calibrated difficulty, and document-grounded diversity. OccuBench evaluates agents along two complementary dimensions: task completion across professional domains and environmental robustness under controlled fault injection (explicit errors, implicit data degradation, and mixed faults). We evaluate 15 frontier models across 8 model families and find that: (1) no single model dominates all industries, as each has a distinct occupational capability profile; (2) implicit faults (truncated data, missing fields) are harder than both explicit errors (timeouts, 500s) and mixed faults, because they lack overt error signals and require the agent to independently detect data degradation; (3) larger models, newer generations, and higher reasoning effort consistently improve performance. GPT-5.2 improves by 27.5 points from minimal to maximum reasoning effort; and (4) strong agents are not necessarily strong environment simulators. Simulator quality is critical for LWM-based evaluation reliability. OccuBench provides the first systematic cross-industry evaluation of AI agents on professional occupational tasks.

OccuBench: Valutazione di Agenti IA su Compiti Professionali Reali tramite Modelli Linguistici di Mondo

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Abstract

Support