OccuBench: Het evalueren van AI-agenten op real-world professionele taken via Language World Models

Samenvatting

Er wordt verwacht dat AI-agenten professioneel werk zullen verrichten in honderden beroepsdomeinen (van triage op spoedeisende hulp tot bewaking van kernreactorveiligheid en douane-importafhandeling), maar bestaande benchmarks kunnen agenten alleen evalueren in de weinige domeinen waar openbare omgevingen bestaan. Wij introduceren OccuBench, een benchmark die 100 real-world professionele taakscenario's beslaat, verspreid over 10 bedrijfstakcategorieën en 65 gespecialiseerde domeinen. Dit wordt mogelijk gemaakt door Language World Models (LWM's) die domeinspecifieke omgevingen simuleren via LLM-gestuurde toolresponsgeneratie. Onze multi-agent synthesepijplijn produceert automatisch evaluatie-instanties met gegarandeerde oplosbaarheid, gekalibreerde moeilijkheidsgraad en op documenten gebaseerde diversiteit. OccuBench evalueert agenten langs twee complementaire dimensies: taakvoltooiing over professionele domeinen heen en omgevingsrobuustheid onder gecontroleerde fault injection (expliciete fouten, impliciete datadegradatie en gemengde fouten). Wij evalueren 15 frontier modellen uit 8 modelfamilies en constateren dat: (1) geen enkel model alle bedrijfstakken domineert, aangezien elk een onderscheidend beroepsbekwaamheidsprofiel heeft; (2) impliciete fouten (afgeknotte data, ontbrekende velden) moeilijker zijn dan zowel expliciete fouten (time-outs, 500-fouten) als gemengde fouten, omdat ze duidelijke foutsignalen missen en vereisen dat de agent datadegradatie zelfstandig detecteert; (3) grotere modellen, nieuwere generaties en een hogere redeneerinspanning de prestaties consistent verbeteren. GPT-5.2 verbetert met 27,5 punten van minimale naar maximale redeneerinspanning; en (4) sterke agenten niet noodzakelijk sterke omgevingssimulators zijn. De kwaliteit van de simulator is cruciaal voor de betrouwbaarheid van LWM-gebaseerde evaluatie. OccuBench biedt de eerste systematische cross-industry evaluatie van AI-agenten voor professionele beroepstaken.

English

AI agents are expected to perform professional work across hundreds of occupational domains (from emergency department triage to nuclear reactor safety monitoring to customs import processing), yet existing benchmarks can only evaluate agents in the few domains where public environments exist. We introduce OccuBench, a benchmark covering 100 real-world professional task scenarios across 10 industry categories and 65 specialized domains, enabled by Language World Models (LWMs) that simulate domain-specific environments through LLM-driven tool response generation. Our multi-agent synthesis pipeline automatically produces evaluation instances with guaranteed solvability, calibrated difficulty, and document-grounded diversity. OccuBench evaluates agents along two complementary dimensions: task completion across professional domains and environmental robustness under controlled fault injection (explicit errors, implicit data degradation, and mixed faults). We evaluate 15 frontier models across 8 model families and find that: (1) no single model dominates all industries, as each has a distinct occupational capability profile; (2) implicit faults (truncated data, missing fields) are harder than both explicit errors (timeouts, 500s) and mixed faults, because they lack overt error signals and require the agent to independently detect data degradation; (3) larger models, newer generations, and higher reasoning effort consistently improve performance. GPT-5.2 improves by 27.5 points from minimal to maximum reasoning effort; and (4) strong agents are not necessarily strong environment simulators. Simulator quality is critical for LWM-based evaluation reliability. OccuBench provides the first systematic cross-industry evaluation of AI agents on professional occupational tasks.

OccuBench: Het evalueren van AI-agenten op real-world professionele taken via Language World Models

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Samenvatting

Support