ChatPaper.aiChatPaper

\$OneMillion-Bench: Quão Distantes Estão os Agentes de Linguagem dos Especialistas Humanos?

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

March 9, 2026
Autores: Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong
cs.AI

Resumo

À medida que os modelos de linguagem (MLs) evoluem de assistentes de conversação para agentes de longo prazo capazes de raciocínio multi-etapas e uso de ferramentas, os benchmarks existentes permanecem amplamente confinados a tarefas estruturadas ou no estilo de exames que ficam aquém das demandas profissionais do mundo real. Para tanto, introduzimos o \OneMillion-Bench, um benchmark de 400 tarefas curadas por especialistas abrangendo Direito, Finanças, Indústria, Saúde e Ciências Naturais, construído para avaliar agentes em cenários economicamente consequentes. Diferente de trabalhos anteriores, o benchmark exige a recuperação de fontes autorizadas, a resolução de evidências conflitantes, a aplicação de regras específicas do domínio e a tomada de decisões com restrições, onde a correção depende tanto do processo de raciocínio quanto da resposta final. Adotamos um protocolo de avaliação baseado em rubricas que pontua a precisão factual, a coerência lógica, a viabilidade prática e a conformidade profissional, focado em problemas de nível especialista para garantir uma diferenciação significativa entre os agentes. Em conjunto, o \OneMillion-Bench fornece um ambiente de teste unificado para avaliar a confiabilidade agentiva, a profundidade profissional e a prontidão prática em cenários de domínio intensivo.
English
As language models (LMs) evolve from chat assistants to long-horizon agents capable of multi-step reasoning and tool use, existing benchmarks remain largely confined to structured or exam-style tasks that fall short of real-world professional demands. To this end, we introduce \OneMillion-Bench OneMillion-Bench, a benchmark of 400 expert-curated tasks spanning Law, Finance, Industry, Healthcare, and Natural Science, built to evaluate agents across economically consequential scenarios. Unlike prior work, the benchmark requires retrieving authoritative sources, resolving conflicting evidence, applying domain-specific rules, and making constraint decisions, where correctness depends as much on the reasoning process as the final answer. We adopt a rubric-based evaluation protocol scoring factual accuracy, logical coherence, practical feasibility, and professional compliance, focused on expert-level problems to ensure meaningful differentiation across agents. Together, \$OneMillion-Bench provides a unified testbed for assessing agentic reliability, professional depth, and practical readiness in domain-intensive scenarios.
PDF274March 26, 2026