VTC-Bench : Évaluation des modèles multimodaux agentiels par enchaînement compositionnel d'outils visuels

Résumé

Les récents progrès étendent les capacités des Modèles de Langue Multimodaux (MLLM) au-delà du simple question-réponse visuel standard vers l'utilisation d'outils externes pour des tâches visuelles avancées. Malgré ces avancées, l'exécution précise et la composition efficace d'outils diversifiés pour des tâches complexes restent un goulot d'étranglement persistant. Contraints par des ensembles d'outils limités et des trajectoires d'utilisation simples, les benchmarks existants ne parviennent pas à capturer des interactions d'outils complexes et variées, échouant à évaluer les performances des modèles dans des conditions pratiques et réalistes. Pour combler cette lacune, nous présentons VisualToolChain-Bench (VTC-Bench), un benchmark complet conçu pour évaluer la maîtrise de l'utilisation d'outils par les MLLM. Pour s'aligner sur les pipelines de vision par ordinateur réalistes, notre cadre intègre 32 opérations visuelles diverses basées sur OpenCV. Ce riche ensemble d'outils permet des combinaisons étendues, permettant à VTC-Bench d'évaluer rigoureusement la composition multi-outils et l'exécution de plans multi-étapes sur un horizon temporel long. Pour une évaluation précise, nous fournissons 680 problèmes soigneusement sélectionnés, structurés selon une hiérarchie cognitive à neuf catégories, chacun avec des trajectoires d'exécution de référence. Des expériences approfondies sur 19 MLLM leaders révèlent des limitations critiques dans les capacités agentiques visuelles des modèles actuels. Plus précisément, les modèles peinent à s'adapter à des ensembles d'outils diversifiés et à généraliser à des opérations non vues, le modèle leader Gemini-3.0-Pro n'atteignant que 51% sur notre benchmark. De plus, la composition multi-outils reste un défi persistant. Face à des tâches complexes, les modèles peinent à formuler des plans d'exécution efficaces, s'appuyant fortement sur un sous-ensemble étroit et sous-optimal de fonctions familières plutôt que de sélectionner les outils optimaux. En identifiant ces défis fondamentaux, VTC-Bench établit une base de référence rigoureuse pour guider le développement de modèles agentiques visuels plus généralisés.

English

Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.

VTC-Bench : Évaluation des modèles multimodaux agentiels par enchaînement compositionnel d'outils visuels

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Résumé

Support