\$OneMillion-Bench: Quão Distantes Estão os Agentes de Linguagem dos Especialistas Humanos?

Resumo

À medida que os modelos de linguagem (MLs) evoluem de assistentes de conversação para agentes de longo prazo capazes de raciocínio multi-etapas e uso de ferramentas, os benchmarks existentes permanecem amplamente confinados a tarefas estruturadas ou no estilo de exames que ficam aquém das demandas profissionais do mundo real. Para tanto, introduzimos o \OneMillion-Bench, um benchmark de 400 tarefas curadas por especialistas abrangendo Direito, Finanças, Indústria, Saúde e Ciências Naturais, construído para avaliar agentes em cenários economicamente consequentes. Diferente de trabalhos anteriores, o benchmark exige a recuperação de fontes autorizadas, a resolução de evidências conflitantes, a aplicação de regras específicas do domínio e a tomada de decisões com restrições, onde a correção depende tanto do processo de raciocínio quanto da resposta final. Adotamos um protocolo de avaliação baseado em rubricas que pontua a precisão factual, a coerência lógica, a viabilidade prática e a conformidade profissional, focado em problemas de nível especialista para garantir uma diferenciação significativa entre os agentes. Em conjunto, o \OneMillion-Bench fornece um ambiente de teste unificado para avaliar a confiabilidade agentiva, a profundidade profissional e a prontidão prática em cenários de domínio intensivo.

English

As language models (LMs) evolve from chat assistants to long-horizon agents capable of multi-step reasoning and tool use, existing benchmarks remain largely confined to structured or exam-style tasks that fall short of real-world professional demands. To this end, we introduce \OneMillion-Bench OneMillion-Bench, a benchmark of 400 expert-curated tasks spanning Law, Finance, Industry, Healthcare, and Natural Science, built to evaluate agents across economically consequential scenarios. Unlike prior work, the benchmark requires retrieving authoritative sources, resolving conflicting evidence, applying domain-specific rules, and making constraint decisions, where correctness depends as much on the reasoning process as the final answer. We adopt a rubric-based evaluation protocol scoring factual accuracy, logical coherence, practical feasibility, and professional compliance, focused on expert-level problems to ensure meaningful differentiation across agents. Together, \$OneMillion-Bench provides a unified testbed for assessing agentic reliability, professional depth, and practical readiness in domain-intensive scenarios.

\$OneMillion-Bench: Quão Distantes Estão os Agentes de Linguagem dos Especialistas Humanos?

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Resumo

Support