VTC-Bench: Оценка агентских мультимодальных моделей с помощью композиционного цепочкообразования визуальных инструментов

Аннотация

Последние достижения расширили возможности мультимодальных больших языковых моделей (MLLM) за пределы стандартного визуального ответа на вопросы до использования внешних инструментов для решения сложных визуальных задач. Несмотря на этот прогресс, точное выполнение и эффективная композиция разнообразных инструментов для сложных задач остаются устойчивым узким местом. Ограниченные скудными наборами инструментов и простыми траекториями их использования, существующие бенчмарки не способны охватить сложные и разнообразные взаимодействия с инструментами, неадекватно оценивая производительность моделей в практических, реальных условиях. Чтобы устранить этот пробел, мы представляем VisualToolChain-Bench (VTC-Bench) — комплексный бенчмарк, предназначенный для оценки навыков использования инструментов в MLLM. Для соответствия реалистичным компьютерным пайплайнам наша платформа включает 32 разнообразные визуальные операции на основе OpenCV. Этот богатый набор инструментов позволяет осуществлять обширные комбинации, что позволяет VTC-Bench строго оценивать композицию множества инструментов и выполнение долгосрочных, многошаговых планов. Для точной оценки мы предоставляем 680 тщательно отобранных задач, структурированных по девятиуровневой когнитивной иерархии, каждая с эталонными траекториями выполнения. Масштабные эксперименты с 19 ведущими MLLM выявили критические ограничения в визуальных агентских способностях современных моделей. В частности, модели испытывают трудности с адаптацией к разнообразным наборам инструментов и обобщением на неизвестные операции, при этом лучшая модель Gemini-3.0-Pro достигает на нашем бенчмарке лишь 51%. Кроме того, композиция множества инструментов остается постоянной проблемой. Сталкиваясь со сложными задачами, модели не могут сформулировать эффективные планы выполнения, сильно полагаясь на узкое, неоптимальное подмножество знакомых функций вместо выбора оптимальных инструментов. Выявляя эти фундаментальные проблемы, VTC-Bench устанавливает строгий базовый уровень для руководства разработкой более обобщенных визуальных агентских моделей.

English

Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.

VTC-Bench: Оценка агентских мультимодальных моделей с помощью композиционного цепочкообразования визуальных инструментов

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Аннотация

Support