TOBench: Un Benchmark Omni-Modal Orientado a Tareas para Agentes que Utilizan Herramientas en el Mundo Real

Resumen

Se espera cada vez más que los agentes que utilizan herramientas operen en flujos de trabajo profesionales realistas, donde deben interpretar entradas multimodales, coordinar herramientas externas, inspeccionar artefactos intermedios y revisar sus acciones antes de producir un resultado final. Sin embargo, los benchmarks existentes a menudo evalúan el uso de herramientas, el uso de computadoras y el razonamiento multimodal de forma aislada, dejando una brecha entre los entornos de benchmark y el uso omni-modal de herramientas de extremo a extremo en el mundo real. Para abordar esta brecha, presentamos MM-ToolBench, un benchmark y un conjunto de herramientas de evaluación para el uso omni-modal de herramientas orientado a tareas. MM-ToolBench contiene 100 tareas ejecutables de dos familias de tareas macro, Servicio al Cliente y Creación Inteligente, que abarcan 20 segmentos de subcategorías y están respaldadas por 27 servidores MCP con 324 herramientas. El diseño central de MM-ToolBench es la verificación multimodal en bucle cerrado: los agentes deben ejecutar herramientas, inspeccionar artefactos renderizados o transformados, y autocorregirse cuando los resultados no cumplen con los requisitos específicos de la tarea. Para que dicha evaluación sea escalable y verificable, MM-ToolBench acopla la ejecución basada en MCP con evaluadores fundamentados específicos de la tarea y un pipeline de construcción semiautomatizado para el descubrimiento de escenarios, la instanciación de tareas, la síntesis de evaluadores y la auditoría humana. Los experimentos con 15 modelos agentivos contemporáneos muestran que MM-ToolBench sigue siendo altamente desafiante: Claude Opus 4.6, comúnmente considerado uno de los modelos agentivos de codificación más fuertes, logra solo un 32.0% de éxito en las tareas, muy por debajo del 94.0% del benchmark humano. Visualizamos MM-ToolBench como una base práctica para evaluar y avanzar en los agentes omni-modales de próxima generación que utilizan herramientas mediante verificación multimodal en bucle cerrado.

English

Tool-using agents are increasingly expected to operate across realistic professional workflows, where they must interpret multimodal inputs, coordinate external tools, inspect intermediate artifacts, and revise their actions before producing a final result. Existing benchmarks, however, often evaluate tool use, computer use, and multimodal reasoning in isolation, leaving a gap between benchmark settings and end-to-end omni-modal tool use in the real world. To address this gap, we introduce MM-ToolBench, a benchmark and evaluation harness for task-oriented omni-modal tool use. MM-ToolBench contains 100 executable tasks from two macro task families, Customer Service and Intelligent Creation, covering 20 subcategory slices and supported by 27 MCP servers with 324 tools. The central design of MM-ToolBench is closed-loop multimodal verification: agents must execute tools, inspect rendered or transformed artifacts, and self-correct when outputs fail task-specific requirements. To make such evaluation scalable and verifiable, MM-ToolBench couples MCP-based execution with task-specific grounded evaluators and a semi-automated construction pipeline for scenario discovery, task instantiation, evaluator synthesis, and human audit. Experiments on 15 contemporary agentic models show that MM-ToolBench remains highly challenging: Claude Opus 4.6, commonly regarded as one of the strongest coding-agent models, achieves only 32.0% task success, far below the 94.0% human benchmark. We envision MM-ToolBench as a practical foundation for evaluating and advancing next-generation omni-modal tool-using agents through closed-loop multimodal verification.