TOBench : Un benchmark omni-modal orienté tâche pour les agents utilisant des outils dans le monde réel

Résumé

Les agents utilisant des outils sont de plus en plus appelés à opérer dans des environnements professionnels réalistes, où ils doivent interpréter des entrées multimodales, coordonner des outils externes, inspecter des artefacts intermédiaires et réviser leurs actions avant de produire un résultat final. Les référentiels existants, cependant, évaluent souvent l'utilisation d'outils, l'utilisation d'ordinateurs et le raisonnement multimodal de manière isolée, creusant un fossé entre les configurations de référence et l'utilisation réelle d'outils omni-modaux de bout en bout. Pour combler cette lacune, nous présentons MM-ToolBench, un référentiel et un dispositif d'évaluation pour l'utilisation d'outils omni-modaux orientée tâche. MM-ToolBench contient 100 tâches exécutables issues de deux macro-familles de tâches, Service Client et Création Intelligente, couvrant 20 sous-catégories et soutenues par 27 serveurs MCP avec 324 outils. La conception centrale de MM-ToolBench est la vérification multimodale en boucle fermée : les agents doivent exécuter des outils, inspecter des artefacts rendus ou transformés, et s'autocorriger lorsque les résultats ne satisfont pas aux exigences spécifiques de la tâche. Pour rendre une telle évaluation évolutive et vérifiable, MM-ToolBench couple une exécution basée sur MCP avec des évaluateurs ancrés spécifiques aux tâches et un pipeline de construction semi-automatisé pour la découverte de scénarios, l'instanciation de tâches, la synthèse d'évaluateurs et l'audit humain. Des expériences menées sur 15 modèles agents contemporains montrent que MM-ToolBench reste très exigeant : Claude Opus 4.6, généralement considéré comme l'un des modèles agents de codage les plus performants, n'atteint qu'un taux de réussite de 32,0 %, bien en deçà de la référence humaine de 94,0 %. Nous envisageons MM-ToolBench comme une base pratique pour évaluer et faire progresser les agents omni-modaux de nouvelle génération utilisant des outils, grâce à une vérification multimodale en boucle fermée.

English

Tool-using agents are increasingly expected to operate across realistic professional workflows, where they must interpret multimodal inputs, coordinate external tools, inspect intermediate artifacts, and revise their actions before producing a final result. Existing benchmarks, however, often evaluate tool use, computer use, and multimodal reasoning in isolation, leaving a gap between benchmark settings and end-to-end omni-modal tool use in the real world. To address this gap, we introduce MM-ToolBench, a benchmark and evaluation harness for task-oriented omni-modal tool use. MM-ToolBench contains 100 executable tasks from two macro task families, Customer Service and Intelligent Creation, covering 20 subcategory slices and supported by 27 MCP servers with 324 tools. The central design of MM-ToolBench is closed-loop multimodal verification: agents must execute tools, inspect rendered or transformed artifacts, and self-correct when outputs fail task-specific requirements. To make such evaluation scalable and verifiable, MM-ToolBench couples MCP-based execution with task-specific grounded evaluators and a semi-automated construction pipeline for scenario discovery, task instantiation, evaluator synthesis, and human audit. Experiments on 15 contemporary agentic models show that MM-ToolBench remains highly challenging: Claude Opus 4.6, commonly regarded as one of the strongest coding-agent models, achieves only 32.0% task success, far below the 94.0% human benchmark. We envision MM-ToolBench as a practical foundation for evaluating and advancing next-generation omni-modal tool-using agents through closed-loop multimodal verification.