TOBench: Ein aufgabenorientierter Omni-Modal-Benchmark für Agenten zur Nutzung realer Werkzeuge

Zusammenfassung

Werkzeugnutzende Agenten werden zunehmend in realistischen professionellen Arbeitsabläufen eingesetzt, in denen sie multimodale Eingaben interpretieren, externe Werkzeuge koordinieren, Zwischenergebnisse prüfen und ihre Handlungen überarbeiten müssen, bevor sie ein endgültiges Ergebnis liefern. Bestehende Benchmarks bewerten jedoch häufig Werkzeugnutzung, Computernutzung und multimodales Denken isoliert, sodass eine Lücke zwischen den Benchmark-Bedingungen und der ganzheitlichen omni-modalen Werkzeugnutzung in der realen Welt besteht. Um diese Lücke zu schließen, stellen wir MM-ToolBench vor, einen Benchmark und eine Evaluierungsumgebung für aufgabenorientierte omni-modale Werkzeugnutzung. MM-ToolBench umfasst 100 ausführbare Aufgaben aus zwei Makro-Aufgabenfamilien, Kundenservice und Intelligente Kreation, die 20 Unterkategorien abdecken und von 27 MCP-Servern mit 324 Werkzeugen unterstützt werden. Das zentrale Design von MM-ToolBench ist die geschlossene multimodale Verifikation: Agenten müssen Werkzeuge ausführen, gerenderte oder transformierte Artefakte inspizieren und selbstständig korrigieren, wenn die Ergebnisse aufgabenspezifische Anforderungen nicht erfüllen. Um eine solche Evaluierung skalierbar und überprüfbar zu machen, kombiniert MM-ToolBench die MCP-basierte Ausführung mit aufgabenspezifischen fundierten Evaluatoren und einer halbautomatischen Konstruktionspipeline für Szenarioerkennung, Aufgabeninstanziierung, Evaluatorsynthese und menschliche Prüfung. Experimente mit 15 zeitgenössischen agentischen Modellen zeigen, dass MM-ToolBench äußerst herausfordernd bleibt: Claude Opus 4.6, allgemein als eines der stärksten Kodierungsagentenmodelle angesehen, erreicht nur 32,0% Aufgabenerfolg, weit unter dem menschlichen Benchmark von 94,0%. Wir sehen MM-ToolBench als praktische Grundlage für die Evaluierung und Weiterentwicklung der nächsten Generation omni-modaler werkzeugnutzender Agenten durch geschlossene multimodale Verifikation.

English

Tool-using agents are increasingly expected to operate across realistic professional workflows, where they must interpret multimodal inputs, coordinate external tools, inspect intermediate artifacts, and revise their actions before producing a final result. Existing benchmarks, however, often evaluate tool use, computer use, and multimodal reasoning in isolation, leaving a gap between benchmark settings and end-to-end omni-modal tool use in the real world. To address this gap, we introduce MM-ToolBench, a benchmark and evaluation harness for task-oriented omni-modal tool use. MM-ToolBench contains 100 executable tasks from two macro task families, Customer Service and Intelligent Creation, covering 20 subcategory slices and supported by 27 MCP servers with 324 tools. The central design of MM-ToolBench is closed-loop multimodal verification: agents must execute tools, inspect rendered or transformed artifacts, and self-correct when outputs fail task-specific requirements. To make such evaluation scalable and verifiable, MM-ToolBench couples MCP-based execution with task-specific grounded evaluators and a semi-automated construction pipeline for scenario discovery, task instantiation, evaluator synthesis, and human audit. Experiments on 15 contemporary agentic models show that MM-ToolBench remains highly challenging: Claude Opus 4.6, commonly regarded as one of the strongest coding-agent models, achieves only 32.0% task success, far below the 94.0% human benchmark. We envision MM-ToolBench as a practical foundation for evaluating and advancing next-generation omni-modal tool-using agents through closed-loop multimodal verification.