VTC-Bench: Valutazione di Modelli Multimodali Agenti tramite Concatenamento Composizionale di Strumenti Visivi

Abstract

I recenti progressi estendono i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) oltre il classico question answering visivo, arrivando a utilizzare strumenti esterni per compiti visivi avanzati. Nonostante questi avanzamenti, l'esecuzione precisa e la composizione efficace di strumenti diversi per compiti complessi rimangono un collo di bottiglia persistente. Limitati da set di strumenti ridotti e traiettorie d'uso semplici, gli attuali benchmark non riescono a catturare interazioni complesse e diversificate con gli strumenti, risultando inadeguati per valutare le prestazioni dei modelli in condizioni pratiche e realistiche. Per colmare questa lacuna, introduciamo VisualToolChain-Bench (VTC-Bench), un benchmark completo progettato per valutare la competenza nell'uso degli strumenti negli MLLM. Per allinearsi alle pipeline realistiche di computer vision, il nostro framework include 32 operazioni visive diversificate basate su OpenCV. Questo ricco set di strumenti consente combinazioni estese, permettendo a VTC-Bench di valutare rigorosamente la composizione di più strumenti e l'esecuzione di piani multi-step a lungo orizzonte. Per una valutazione precisa, forniamo 680 problemi selezionati, strutturati secondo una gerarchia cognitiva di nove categorie, ciascuno con traiettorie di esecuzione ground-truth. Esperimenti estesi su 19 MLLM leader di mercato rivelano limitazioni critiche nelle capacità agentiche visive dei modelli attuali. Nello specifico, i modelli faticano ad adattarsi a set di strumenti diversificati e a generalizzare verso operazioni non viste, con il modello leader Gemini-3.0-Pro che raggiunge solo il 51% sul nostro benchmark. Inoltre, la composizione di più strumenti rimane una sfida persistente. Di fronte a compiti complessi, i modelli hanno difficoltà a formulare piani di esecuzione efficienti, facendo forte affidamento su un sottoinsieme ristretto e subottimale di funzioni familiari, piuttosto che selezionare gli strumenti ottimali. Identificando queste sfide fondamentali, VTC-Bench stabilisce una baseline rigorosa per guidare lo sviluppo di modelli agentici visivi più generalizzati.

English

Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.

VTC-Bench: Valutazione di Modelli Multimodali Agenti tramite Concatenamento Composizionale di Strumenti Visivi

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Abstract

Support