TOBench: Um Benchmark Omnimodal Orientado a Tarefas para Agentes que Usam Ferramentas no Mundo Real

Resumo

Agentes que utilizam ferramentas são cada vez mais esperados para operar em fluxos de trabalho profissionais realistas, onde precisam interpretar entradas multimodais, coordenar ferramentas externas, inspecionar artefatos intermediários e revisar suas ações antes de produzir um resultado final. No entanto, benchmarks existentes frequentemente avaliam o uso de ferramentas, o uso de computador e o raciocínio multimodal de forma isolada, deixando uma lacuna entre os cenários de benchmark e o uso omni-modal de ferramentas de ponta a ponta no mundo real. Para preencher essa lacuna, apresentamos o MM-ToolBench, um benchmark e conjunto de ferramentas de avaliação para uso omni-modal de ferramentas orientado a tarefas. O MM-ToolBench contém 100 tarefas executáveis de duas macrofamílias de tarefas, Atendimento ao Cliente e Criação Inteligente, abrangendo 20 fatias de subcategorias e suportadas por 27 servidores MCP com 324 ferramentas. O design central do MM-ToolBench é a verificação multimodal em malha fechada: os agentes devem executar ferramentas, inspecionar artefatos renderizados ou transformados e se autocorrigir quando as saídas falham nos requisitos específicos da tarefa. Para tornar essa avaliação escalável e verificável, o MM-ToolBench combina execução baseada em MCP com avaliadores fundamentados específicos da tarefa e um pipeline de construção semiautomatizado para descoberta de cenários, instanciação de tarefas, síntese de avaliadores e auditoria humana. Experimentos em 15 modelos agentivos contemporâneos mostram que o MM-ToolBench continua altamente desafiador: o Claude Opus 4.6, comumente considerado um dos modelos agentivos de codificação mais fortes, atinge apenas 32,0% de sucesso nas tarefas, muito abaixo do benchmark humano de 94,0%. Vislumbramos o MM-ToolBench como uma base prática para avaliar e avançar agentes da próxima geração que utilizam ferramentas omni-modais por meio de verificação multimodal em malha fechada.

English

Tool-using agents are increasingly expected to operate across realistic professional workflows, where they must interpret multimodal inputs, coordinate external tools, inspect intermediate artifacts, and revise their actions before producing a final result. Existing benchmarks, however, often evaluate tool use, computer use, and multimodal reasoning in isolation, leaving a gap between benchmark settings and end-to-end omni-modal tool use in the real world. To address this gap, we introduce MM-ToolBench, a benchmark and evaluation harness for task-oriented omni-modal tool use. MM-ToolBench contains 100 executable tasks from two macro task families, Customer Service and Intelligent Creation, covering 20 subcategory slices and supported by 27 MCP servers with 324 tools. The central design of MM-ToolBench is closed-loop multimodal verification: agents must execute tools, inspect rendered or transformed artifacts, and self-correct when outputs fail task-specific requirements. To make such evaluation scalable and verifiable, MM-ToolBench couples MCP-based execution with task-specific grounded evaluators and a semi-automated construction pipeline for scenario discovery, task instantiation, evaluator synthesis, and human audit. Experiments on 15 contemporary agentic models show that MM-ToolBench remains highly challenging: Claude Opus 4.6, commonly regarded as one of the strongest coding-agent models, achieves only 32.0% task success, far below the 94.0% human benchmark. We envision MM-ToolBench as a practical foundation for evaluating and advancing next-generation omni-modal tool-using agents through closed-loop multimodal verification.