VTC-Bench: Evaluatie van Agentische Multimodale Modellen via Compositionele Visuele Toolketen
VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
March 16, 2026
Auteurs: Xuanyu Zhu, Yuhao Dong, Rundong Wang, Yang Shi, Zhipeng Wu, Yinlun Peng, YiFan Zhang, Yihang Lou, Yuanxing Zhang, Ziwei Liu, Yan Bai, Yuan Zhou
cs.AI
Samenvatting
Recente ontwikkelingen breiden Multimodale Large Language Models (MLLM's) uit voorbij standaard visuele vraag-antwoordtaken naar het gebruik van externe tools voor geavanceerde visuele taken. Ondanks deze vooruitgang blijven het nauwkeurig uitvoeren en effectief combineren van diverse tools voor complexe taken een hardnekkig knelpunt. Beperkt door schaarse tool-sets en eenvoudige tool-gebruikstrajecten, slagen bestaande benchmarks er niet in om complexe en diverse toolinteracties vast te leggen, en schieten ze tekort in het evalueren van modelprestaties onder praktische, real-world omstandigheden. Om deze kloof te overbruggen, introduceren we VisualToolChain-Bench (VTC-Bench), een uitgebreide benchmark ontworpen om de tool-gebruiksvaardigheid van MLLM's te evalueren. Om aan te sluiten bij realistische computer vision-pipelines, bevat ons framework 32 diverse visuele operaties gebaseerd op OpenCV. Deze rijke tool-set maakt uitgebreide combinaties mogelijk, waardoor VTC-Bench multi-toolcompositie en de uitvoering van langetermijn-, meerstappenplannen rigoureus kan beoordelen. Voor een nauwkeurige evaluatie bieden we 680 geselecteerde problemen, gestructureerd volgens een cognitieve hiërarchie van negen categorieën, elk met grond-waarheid-uitvoeringstrajecten. Uitgebreide experimenten met 19 toonaangevende MLLM's onthullen kritieke beperkingen in de huidige visuele agent-capaciteiten van modellen. Specifiek hebben modellen moeite om zich aan te passen aan diverse tool-sets en te generaliseren naar onbekende operaties, waarbij het leidende model Gemini-3.0-Pro slechts 51% behaalt op onze benchmark. Bovendien blijft multi-toolcompositie een hardnekkige uitdaging. Bij complexe taken slagen modellen er niet in om efficiënte uitvoeringsplannen te formuleren; ze vertrouwen zwaar op een kleine, suboptimale subset van bekende functies in plaats van de optimale tools te selecteren. Door deze fundamentele uitdagingen te identificeren, legt VTC-Bench een rigoureuze basislijn om de ontwikkeling van meer gegeneraliseerde visuele agent-modellen te sturen.
English
Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.