VTC-Bench: Evaluierung agentenbasierter multimodaler Modelle durch kompositionelle Verkettung visueller Werkzeuge

Zusammenfassung

Jüngste Fortschritte erweitern die Fähigkeiten Multimodaler Großsprachmodelle (MLLMs) über standardmäßiges visuelles Frage-Antworten hinaus hin zur Nutzung externer Werkzeuge für anspruchsvolle visuelle Aufgaben. Trotz dieser Fortschritte bleiben die präzise Ausführung und effektive Komposition verschiedener Werkzeuge für komplexe Aufgaben ein anhaltender Engpass. Aufgrund beschränkter Werkzeugsammlungen und einfacher Werkzeugnutzungsverläufe erfassen bestehende Benchmarks keine komplexen und vielfältigen Werkzeuginteraktionen und sind ungeeignet, um die Modellleistung unter praktischen, realen Bedingungen zu bewerten. Um diese Lücke zu schließen, stellen wir VisualToolChain-Bench (VTC-Bench) vor, einen umfassenden Benchmark zur Bewertung der Werkzeugnutzungskompetenz von MLLMs. Um realistische Computer-Vision-Pipelines abzubilden, umfasst unser Framework 32 verschiedene OpenCV-basierte visuelle Operationen. Diese umfangreiche Werkzeugsammlung ermöglicht umfassende Kombinationen und erlaubt es VTC-Bench, Multi-Tool-Komposition und langfristige, mehrstufige Planausführung rigoros zu bewerten. Für eine präzise Evaluation stellen wir 680 kuratierte Probleme bereit, die in einer neunstufigen kognitiven Hierarchie strukturiert sind, jeweils mit Referenz-Ausführungsverläufen. Umfangreiche Experimente mit 19 führenden MLLMs zeigen kritische Grenzen der aktuellen visuellen agentiellen Fähigkeiten der Modelle auf. Insbesondere haben Modelle Schwierigkeiten, sich an diverse Werkzeugsammlungen anzupassen und auf unbekannte Operationen zu verallgemeinern, wobei das führende Modell Gemini-3.0-Pro in unserem Benchmark nur 51% erreicht. Darüber hinaus bleibt die Multi-Tool-Komposition eine beständige Herausforderung. Bei komplexen Aufgaben gelingt es Modellen nicht, effiziente Ausführungspläne zu formulieren; sie greifen stark auf einen engen, suboptimalen Teilbereich vertrauter Funktionen zurück, anstatt die optimalen Werkzeuge auszuwählen. Durch die Identifizierung dieser grundlegenden Herausforderungen etabliert VTC-Bench eine rigorose Basis, um die Entwicklung generalisierterer visuell agentieller Modelle zu leiten.

English

Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.

VTC-Bench: Evaluierung agentenbasierter multimodaler Modelle durch kompositionelle Verkettung visueller Werkzeuge

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Zusammenfassung

Support