\$OneMillion-Bench: Насколько далеки языковые агенты от экспертов-людей?

Аннотация

По мере того как языковые модели (ЯМ) эволюционируют от чат-ассистентов до долгосрочных агентов, способных к многошаговым рассуждениям и использованию инструментов, существующие бенчмарки остаются в основном ограниченными структурированными или экзаменационными задачами, которые не соответствуют реальным профессиональным требованиям. Для решения этой проблемы мы представляем **OneMillion-Bench** — бенчмарк из 400 экспертно отобранных задач в области права, финансов, промышленности, здравоохранения и естественных наук, созданный для оценки агентов в экономически значимых сценариях. В отличие от предыдущих работ, данный бенчмарк требует поиска авторитетных источников, разрешения противоречивых данных, применения предметно-ориентированных правил и принятия ограниченных решений, где корректность зависит от процесса рассуждений не меньше, чем от конечного ответа. Мы применяем рубричный протокол оценки, учитывающий фактологическую точность, логическую согласованность, практическую реализуемость и профессиональное соответствие, сфокусированный на задачах экспертного уровня для обеспечения содержательного различия между агентами. В совокупности **OneMillion-Bench** предоставляет единую тестовую среду для оценки агентской надежности, профессиональной глубины и практической готовности в предметно-интенсивных сценариях.

English

As language models (LMs) evolve from chat assistants to long-horizon agents capable of multi-step reasoning and tool use, existing benchmarks remain largely confined to structured or exam-style tasks that fall short of real-world professional demands. To this end, we introduce \OneMillion-Bench OneMillion-Bench, a benchmark of 400 expert-curated tasks spanning Law, Finance, Industry, Healthcare, and Natural Science, built to evaluate agents across economically consequential scenarios. Unlike prior work, the benchmark requires retrieving authoritative sources, resolving conflicting evidence, applying domain-specific rules, and making constraint decisions, where correctness depends as much on the reasoning process as the final answer. We adopt a rubric-based evaluation protocol scoring factual accuracy, logical coherence, practical feasibility, and professional compliance, focused on expert-level problems to ensure meaningful differentiation across agents. Together, \$OneMillion-Bench provides a unified testbed for assessing agentic reliability, professional depth, and practical readiness in domain-intensive scenarios.

\$OneMillion-Bench: Насколько далеки языковые агенты от экспертов-людей?

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Аннотация

Support