\$OneMillion-Bench: Wie weit sind Sprach-Agents von menschlichen Experten entfernt?

Zusammenfassung

Mit der Entwicklung von Sprachmodellen (LMs) von Chat-Assistenten zu langlebigen Agenten, die zu mehrstufigem Denken und Werkzeuggebrauch fähig sind, bleiben bestehende Benchmarks größtenteils auf strukturierte oder prüfungsähnliche Aufgaben beschränkt, die den realen beruflichen Anforderungen nicht gerecht werden. Zu diesem Zweck stellen wir \OneMillion-Bench OneMillion-Bench vor, einen Benchmark mit 400 von Experten kuratierten Aufgaben aus den Bereichen Recht, Finanzen, Industrie, Gesundheitswesen und Naturwissenschaften, der entwickelt wurde, um Agenten in wirtschaftlich relevanten Szenarien zu bewerten. Im Gegensatz zu früheren Arbeiten erfordert dieser Benchmark das Abrufen autoritativer Quellen, das Auflösen widersprüchlicher Evidenz, die Anwendung domainspezifischer Regeln und das Treffen von Entscheidungen unter Nebenbedingungen, wobei die Korrektheit ebenso sehr vom Denkprozess wie von der endgültigen Antwort abhängt. Wir verwenden ein rubrikbasiertes Bewertungsprotokoll, das faktische Genauigkeit, logische Kohärenz, praktische Machbarkeit und berufliche Konformität bewertet, wobei der Fokus auf Expertenniveau-Problemen liegt, um eine aussagekräftige Differenzierung zwischen Agenten zu gewährleisten. Zusammengenommen bietet \$OneMillion-Bench eine einheitliche Testumgebung zur Bewertung von agentenbasierter Zuverlässigkeit, professioneller Tiefe und praktischer Einsatzbereitschaft in domainsintensiven Szenarien.

English

As language models (LMs) evolve from chat assistants to long-horizon agents capable of multi-step reasoning and tool use, existing benchmarks remain largely confined to structured or exam-style tasks that fall short of real-world professional demands. To this end, we introduce \OneMillion-Bench OneMillion-Bench, a benchmark of 400 expert-curated tasks spanning Law, Finance, Industry, Healthcare, and Natural Science, built to evaluate agents across economically consequential scenarios. Unlike prior work, the benchmark requires retrieving authoritative sources, resolving conflicting evidence, applying domain-specific rules, and making constraint decisions, where correctness depends as much on the reasoning process as the final answer. We adopt a rubric-based evaluation protocol scoring factual accuracy, logical coherence, practical feasibility, and professional compliance, focused on expert-level problems to ensure meaningful differentiation across agents. Together, \$OneMillion-Bench provides a unified testbed for assessing agentic reliability, professional depth, and practical readiness in domain-intensive scenarios.

\$OneMillion-Bench: Wie weit sind Sprach-Agents von menschlichen Experten entfernt?

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Zusammenfassung

Support