TOBench: Een Taakgerichte Omni-Modale Benchmark voor in de Praktijk Gereedschap-Gebruikende Agents

Samenvatting

Van tool-gebruikende agenten wordt steeds vaker verwacht dat ze opereren in realistische professionele workflows, waarbij ze multimodale invoer moeten interpreteren, externe tools coördineren, tussentijdse artefacten inspecteren en hun acties herzien voordat ze een eindresultaat produceren. Bestaande benchmarks evalueren echter vaak toolgebruik, computergebruik en multimodaal redeneren in isolatie, wat een kloof laat tussen benchmarksettings en end-to-end omnimodaal toolgebruik in de echte wereld. Om deze kloof te overbruggen, introduceren we MM-ToolBench, een benchmark en evaluatieomgeving voor taakgericht omnimodaal toolgebruik. MM-ToolBench bevat 100 uitvoerbare taken uit twee macrotaakfamilies, Klantenservice en Intelligente Creatie, die 20 subcategorieën bestrijken en worden ondersteund door 27 MCP-servers met 324 tools. Het centrale ontwerp van MM-ToolBench is closed-loop multimodale verificatie: agenten moeten tools uitvoeren, gerenderde of getransformeerde artefacten inspecteren en zichzelf corrigeren wanneer uitkomsten niet voldoen aan taakspecifieke vereisten. Om dergelijke evaluatie schaalbaar en verifieerbaar te maken, koppelt MM-ToolBench MCP-gebaseerde uitvoering aan taakspecifieke verankerde evaluatoren en een semi-geautomatiseerde constructiepijplijn voor scenario-ontdekking, taakinstantiëring, evaluatorsynthese en menselijke audit. Experimenten met 15 hedendaagse agentische modellen tonen aan dat MM-ToolBench zeer uitdagend blijft: Claude Opus 4.6, algemeen beschouwd als een van de sterkste codeeragent-modellen, behaalt slechts 32,0% taaksucces, ver onder de 94,0% menselijke benchmark. We zien MM-ToolBench als een praktische basis voor het evalueren en bevorderen van de volgende generatie omnimodale tool-gebruikende agenten door middel van closed-loop multimodale verificatie.

English

Tool-using agents are increasingly expected to operate across realistic professional workflows, where they must interpret multimodal inputs, coordinate external tools, inspect intermediate artifacts, and revise their actions before producing a final result. Existing benchmarks, however, often evaluate tool use, computer use, and multimodal reasoning in isolation, leaving a gap between benchmark settings and end-to-end omni-modal tool use in the real world. To address this gap, we introduce MM-ToolBench, a benchmark and evaluation harness for task-oriented omni-modal tool use. MM-ToolBench contains 100 executable tasks from two macro task families, Customer Service and Intelligent Creation, covering 20 subcategory slices and supported by 27 MCP servers with 324 tools. The central design of MM-ToolBench is closed-loop multimodal verification: agents must execute tools, inspect rendered or transformed artifacts, and self-correct when outputs fail task-specific requirements. To make such evaluation scalable and verifiable, MM-ToolBench couples MCP-based execution with task-specific grounded evaluators and a semi-automated construction pipeline for scenario discovery, task instantiation, evaluator synthesis, and human audit. Experiments on 15 contemporary agentic models show that MM-ToolBench remains highly challenging: Claude Opus 4.6, commonly regarded as one of the strongest coding-agent models, achieves only 32.0% task success, far below the 94.0% human benchmark. We envision MM-ToolBench as a practical foundation for evaluating and advancing next-generation omni-modal tool-using agents through closed-loop multimodal verification.