OccuBench: Bewertung von KI-Agenten anhand realer Berufsaufgaben mittels sprachbasierter Weltmodelle

Zusammenfassung

KI-Agenten sollen professionelle Arbeiten in Hunderten von Berufsfeldern ausführen (von der Notaufnahmetriage über die Sicherheitsüberwachung von Kernreaktoren bis zur Zollabfertigung), doch bestehende Benchmarks können Agenten nur in den wenigen Domänen evaluieren, für die öffentliche Umgebungen existieren. Wir stellen OccuBench vor, einen Benchmark mit 100 realen beruflichen Aufgabenstellungen aus 10 Branchenkategorien und 65 Fachdomänen, ermöglicht durch Language World Models (LWMs), die domänenspezifische Umgebungen durch LLM-gesteuerte Tool-Response-Generierung simulieren. Unsere Multi-Agenten-Synthesepipeline erzeugt automatisch Evaluationsinstanzen mit garantierter Lösbarkeit, kalibrierter Schwierigkeit und dokumentengestützter Diversität. OccuBench evaluiert Agenten entlang zweier komplementärer Dimensionen: Aufgabenbewältigung über Berufsdomänen hinweg und Umweltrobustheit unter kontrollierter Fehlerinjektion (explizite Fehler, implizite Datenverschlechterung und gemischte Fehler). Wir evaluieren 15 Frontier-Modelle aus 8 Modellfamilien und finden heraus: (1) Kein einzelnes Modell dominiert alle Branchen, da jedes ein distinctes berufliches Fähigkeitsprofil aufweist; (2) implizite Fehler (abgeschnittene Daten, fehlende Felder) sind schwieriger als explizite Fehler (Timeouts, 500er) und gemischte Fehler, da sie keine offensichtlichen Fehlersignale bieten und der Agent Datenverschlechterung eigenständig erkennen muss; (3) größere Modelle, neuere Generationen und höherer Reasoning-Aufwand verbessern durchgängig die Leistung. GPT-5.2 verbessert sich um 27,5 Punkte von minimalem zu maximalem Reasoning-Aufwand; und (4) starke Agenten sind nicht notwendigerweise starke Umgebungssimulatoren. Die Simulatorqualität ist entscheidend für die Zuverlässigkeit LWM-basierter Evaluation. OccuBench bietet die erste systematische branchenübergreifende Evaluation von KI-Agenten für professionelle berufliche Aufgaben.

English

AI agents are expected to perform professional work across hundreds of occupational domains (from emergency department triage to nuclear reactor safety monitoring to customs import processing), yet existing benchmarks can only evaluate agents in the few domains where public environments exist. We introduce OccuBench, a benchmark covering 100 real-world professional task scenarios across 10 industry categories and 65 specialized domains, enabled by Language World Models (LWMs) that simulate domain-specific environments through LLM-driven tool response generation. Our multi-agent synthesis pipeline automatically produces evaluation instances with guaranteed solvability, calibrated difficulty, and document-grounded diversity. OccuBench evaluates agents along two complementary dimensions: task completion across professional domains and environmental robustness under controlled fault injection (explicit errors, implicit data degradation, and mixed faults). We evaluate 15 frontier models across 8 model families and find that: (1) no single model dominates all industries, as each has a distinct occupational capability profile; (2) implicit faults (truncated data, missing fields) are harder than both explicit errors (timeouts, 500s) and mixed faults, because they lack overt error signals and require the agent to independently detect data degradation; (3) larger models, newer generations, and higher reasoning effort consistently improve performance. GPT-5.2 improves by 27.5 points from minimal to maximum reasoning effort; and (4) strong agents are not necessarily strong environment simulators. Simulator quality is critical for LWM-based evaluation reliability. OccuBench provides the first systematic cross-industry evaluation of AI agents on professional occupational tasks.

OccuBench: Bewertung von KI-Agenten anhand realer Berufsaufgaben mittels sprachbasierter Weltmodelle

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Zusammenfassung

Support