\$OneMillion-Bench : Quelle est la distance entre les agents linguistiques et les experts humains ?

Résumé

Alors que les modèles de langage (LM) évoluent d'assistants conversationnels vers des agents à long horizon capables de raisonnement multi-étapes et d'utilisation d'outils, les benchmarks existants restent largement confinés à des tâches structurées ou de type examen qui ne répondent pas aux exigences professionnelles du monde réel. Pour pallier cela, nous présentons \OneMillion-Bench, un benchmark de 400 tâches expertes couvrant le Droit, la Finance, l'Industrie, la Santé et les Sciences Naturelles, conçu pour évaluer les agents dans des scénarios à fort impact économique. Contrairement aux travaux antérieurs, ce benchmark nécessite de consulter des sources autorisées, de résoudre des informations contradictoires, d'appliquer des règles spécifiques à un domaine et de prendre des décisions sous contraintes, où la justesse dépend autant du processus de raisonnement que de la réponse finale. Nous adoptons un protocole d'évaluation basé sur une grille notant la précision factuelle, la cohérence logique, la faisabilité pratique et la conformité professionnelle, en se concentrant sur des problèmes de niveau expert pour assurer une différenciation significative entre les agents. Ainsi, \OneMillion-Bench fournit un banc d'essai unifié pour évaluer la fiabilité agentique, la profondeur professionnelle et la maturité opérationnelle des agents dans des scénarios à forte intensité domaines.

English

As language models (LMs) evolve from chat assistants to long-horizon agents capable of multi-step reasoning and tool use, existing benchmarks remain largely confined to structured or exam-style tasks that fall short of real-world professional demands. To this end, we introduce \OneMillion-Bench OneMillion-Bench, a benchmark of 400 expert-curated tasks spanning Law, Finance, Industry, Healthcare, and Natural Science, built to evaluate agents across economically consequential scenarios. Unlike prior work, the benchmark requires retrieving authoritative sources, resolving conflicting evidence, applying domain-specific rules, and making constraint decisions, where correctness depends as much on the reasoning process as the final answer. We adopt a rubric-based evaluation protocol scoring factual accuracy, logical coherence, practical feasibility, and professional compliance, focused on expert-level problems to ensure meaningful differentiation across agents. Together, \$OneMillion-Bench provides a unified testbed for assessing agentic reliability, professional depth, and practical readiness in domain-intensive scenarios.

\$OneMillion-Bench : Quelle est la distance entre les agents linguistiques et les experts humains ?

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Résumé

Support