VTC-Bench: Avaliação de Modelos Multimodais Agênicos por meio de Encadeamento Composicional de Ferramentas Visuais

Resumo

Avanços recentes estendem os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) além da tarefa padrão de resposta a perguntas visuais, permitindo o uso de ferramentas externas para tarefas visuais avançadas. Apesar desse progresso, a execução precisa e a composição eficaz de diversas ferramentas para tarefas complexas permanecem um gargalo persistente. Limitados por conjuntos de ferramentas esparsos e trajetórias de uso de ferramentas simples, os benchmarks existentes não conseguem capturar interações complexas e diversificadas entre ferramentas, ficando aquém na avaliação do desempenho dos modelos sob condições práticas do mundo real. Para preencher essa lacuna, introduzimos o *VisualToolChain-Bench* (VTC-Bench), um benchmark abrangente projetado para avaliar a proficiência no uso de ferramentas em MLLMs. Para se alinhar com os fluxos de trabalho realistas de visão computacional, nossa estrutura apresenta 32 operações visuais diversificadas baseadas em OpenCV. Este conjunto rico de ferramentas permite combinações extensivas, permitindo que o VTC-Bench avalie rigorosamente a composição de múltiplas ferramentas e a execução de planos de longo horizonte e múltiplos passos. Para uma avaliação precisa, fornecemos 680 problemas selecionados, estruturados em uma hierarquia cognitiva de nove categorias, cada um com trajetórias de execução de referência (ground-truth). Experimentos extensos em 19 MLLMs líderes revelam limitações críticas nas capacidades de agência visual dos modelos atuais. Especificamente, os modelos lutam para se adaptar a conjuntos de ferramentas diversificados e generalizar para operações não vistas, com o modelo líder Gemini-3.0-Pro atingindo apenas 51% em nosso benchmark. Além disso, a composição de múltiplas ferramentas permanece um desafio persistente. Ao enfrentar tarefas complexas, os modelos têm dificuldade em formular planos de execução eficientes, dependendo fortemente de um subconjunto estreito e subótimo de funções familiares, em vez de selecionar as ferramentas ótimas. Ao identificar esses desafios fundamentais, o VTC-Bench estabelece uma linha de base rigorosa para orientar o desenvolvimento de modelos de agência visual mais generalizados.

English

Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.

VTC-Bench: Avaliação de Modelos Multimodais Agênicos por meio de Encadeamento Composicional de Ferramentas Visuais

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Resumo

Support