VTC-Bench: Evaluación de Modelos Multimodales Agentes mediante Encadenamiento Composicional de Herramientas Visuales
VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
March 16, 2026
Autores: Xuanyu Zhu, Yuhao Dong, Rundong Wang, Yang Shi, Zhipeng Wu, Yinlun Peng, YiFan Zhang, Yihang Lou, Yuanxing Zhang, Ziwei Liu, Yan Bai, Yuan Zhou
cs.AI
Resumen
Los avances recientes extienden las capacidades de los Modelos de Lenguaje Grandes Multimodales (MLLMs) más allá de la respuesta a preguntas visuales estándar, permitiéndoles utilizar herramientas externas para tareas visuales avanzadas. A pesar de este progreso, la ejecución precisa y la composición efectiva de diversas herramientas para tareas complejas siguen siendo un cuello de botella persistente. Limitados por conjuntos de herramientas escasos y trayectorias de uso simples, los puntos de referencia existentes no logran capturar interacciones de herramientas complejas y diversas, quedando cortos en la evaluación del rendimiento de los modelos bajo condiciones prácticas del mundo real. Para cerrar esta brecha, presentamos VisualToolChain-Bench (VTC-Bench), un punto de referencia integral diseñado para evaluar la competencia en el uso de herramientas en los MLLMs. Para alinearse con las pipelines realistas de visión por computadora, nuestro marco presenta 32 operaciones visuales diversas basadas en OpenCV. Este conjunto de herramientas enriquecido permite combinaciones extensas, permitiendo que VTC-Bench evalúe rigurosamente la composición de múltiples herramientas y la ejecución de planes multi-paso de largo horizonte. Para una evaluación precisa, proporcionamos 680 problemas curados estructurados en una jerarquía cognitiva de nueve categorías, cada uno con trayectorias de ejecución de verdad terreno. Experimentos exhaustivos en 19 MLLMs líderes revelan limitaciones críticas en las capacidades agentivas visuales de los modelos actuales. Específicamente, los modelos luchan por adaptarse a conjuntos de herramientas diversos y generalizar a operaciones no vistas, con el modelo líder Gemini-3.0-Pro alcanzando solo un 51% en nuestro punto de referencia. Además, la composición de múltiples herramientas sigue siendo un desafío persistente. Al enfrentar tareas complejas, los modelos tienen dificultades para formular planes de ejecución eficientes, dependiendo en gran medida de un subconjunto reducido y subóptimo de funciones familiares en lugar de seleccionar las herramientas óptimas. Al identificar estos desafíos fundamentales, VTC-Bench establece una línea base rigurosa para guiar el desarrollo de modelos agentivos visuales más generalizados.
English
Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.