OccuBench: Оценка ИИ-агентов на реальных профессиональных задачах с помощью языковых моделей мира

Аннотация

Ожидается, что ИИ-агенты будут выполнять профессиональную работу в сотнях профессиональных областей (от сортировки пациентов в приемном отделении до мониторинга безопасности ядерных реакторов и таможенной обработки импорта), однако существующие бенчмарки могут оценивать агентов лишь в немногих областях, где есть публичные среды. Мы представляем OccuBench — бенчмарк, охватывающий 100 реальных профессиональных сценариев задач в 10 отраслевых категориях и 65 специализированных областях, реализованный с помощью Языковых Моделей Мира (Language World Models, LWMs), которые симулируют предметно-ориентированные среды через генерацию ответов инструментов на основе больших языковых моделей (LLM). Наш многокомпонентный синтезирующий конвейер автоматически создает оценочные примеры с гарантированной разрешимостью, калиброванной сложностью и разнообразием, основанным на документах. OccuBench оценивает агентов по двум взаимодополняющим направлениям: выполнение задач в профессиональных областях и устойчивость к воздействиям среды при контролируемом внедрении сбоев (явные ошибки, неявная деградация данных и смешанные сбои). Мы оценили 15 передовых моделей из 8 семейств и обнаружили, что: (1) ни одна модель не доминирует во всех отраслях, поскольку каждая обладает уникальным профилем профессиональных способностей; (2) неявные сбои (усеченные данные, отсутствующие поля) сложнее как явных ошибок (тайм-ауты, ошибки 500), так и смешанных сбоев, поскольку они не имеют явных сигналов ошибок и требуют от агента самостоятельного обнаружения деградации данных; (3) более крупные модели, новые поколения и повышенные вычислительные усилия на рассуждение последовательно улучшают результаты. GPT-5.2 улучшает показатель на 27.5 баллов при переходе от минимальных к максимальным вычислительным усилиям на рассуждение; и (4) мощные агенты не обязательно являются мощными симуляторами среды. Качество симулятора критически важно для надежности оценки на основе LWMs. OccuBench предоставляет первую систематическую межотраслевую оценку ИИ-агентов на профессиональных задачах.

English

AI agents are expected to perform professional work across hundreds of occupational domains (from emergency department triage to nuclear reactor safety monitoring to customs import processing), yet existing benchmarks can only evaluate agents in the few domains where public environments exist. We introduce OccuBench, a benchmark covering 100 real-world professional task scenarios across 10 industry categories and 65 specialized domains, enabled by Language World Models (LWMs) that simulate domain-specific environments through LLM-driven tool response generation. Our multi-agent synthesis pipeline automatically produces evaluation instances with guaranteed solvability, calibrated difficulty, and document-grounded diversity. OccuBench evaluates agents along two complementary dimensions: task completion across professional domains and environmental robustness under controlled fault injection (explicit errors, implicit data degradation, and mixed faults). We evaluate 15 frontier models across 8 model families and find that: (1) no single model dominates all industries, as each has a distinct occupational capability profile; (2) implicit faults (truncated data, missing fields) are harder than both explicit errors (timeouts, 500s) and mixed faults, because they lack overt error signals and require the agent to independently detect data degradation; (3) larger models, newer generations, and higher reasoning effort consistently improve performance. GPT-5.2 improves by 27.5 points from minimal to maximum reasoning effort; and (4) strong agents are not necessarily strong environment simulators. Simulator quality is critical for LWM-based evaluation reliability. OccuBench provides the first systematic cross-industry evaluation of AI agents on professional occupational tasks.

OccuBench: Оценка ИИ-агентов на реальных профессиональных задачах с помощью языковых моделей мира

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Аннотация

Support