SpecEyes: Accelerazione di LLM Agenti Multimodali tramite Percezione e Pianificazione Speculativa

Abstract

I modelli linguistici multimodali agentici (MLLM) (ad esempio, OpenAI o3 e Gemini Agentic Vision) raggiungono capacità di ragionamento notevoli attraverso l'invocazione iterativa di strumenti visivi. Tuttavia, i cicli concatenati di percezione, ragionamento e chiamata a strumenti introducono un sovraccarico sequenziale significativo. Questo sovraccarico, definito profondità agentica, comporta una latenza proibitiva e limita seriamente la concorrenza a livello di sistema. A tal fine, proponiamo SpecEyes, un framework di accelerazione speculativa a livello agentico che supera questo collo di bottiglia sequenziale. La nostra intuizione chiave è che un MLLM leggero, privo di strumenti, possa fungere da pianificatore speculativo per prevedere la traiettoria di esecuzione, consentendo una terminazione anticipata delle costose catene di strumenti senza sacrificare l'accuratezza. Per regolare questa pianificazione speculativa, introduciamo un meccanismo di gate cognitivo basato sulla separabilità delle risposte, che quantifica la fiducia del modello per l'auto-verifica senza richiedere etichette oracle. Inoltre, progettiamo un imbuto parallelo eterogeneo che sfrutta la concorrenza senza stato del modello piccolo per mascherare l'esecuzione seriale con stato del modello grande, massimizzando il throughput del sistema. Esperimenti estensivi su V* Bench, HR-Bench e POPE dimostrano che SpecEyes ottiene un'accelerazione di 1.1-3.35x rispetto al baseline agentico preservando o persino migliorando l'accuratezza (fino a +6.7%), aumentando così il throughput di servizio sotto carichi di lavoro concorrenti.

English

Agentic multimodal large language models (MLLMs) (e.g., OpenAI o3 and Gemini Agentic Vision) achieve remarkable reasoning capabilities through iterative visual tool invocation. However, the cascaded perception, reasoning, and tool-calling loops introduce significant sequential overhead. This overhead, termed agentic depth, incurs prohibitive latency and seriously limits system-level concurrency. To this end, we propose SpecEyes, an agentic-level speculative acceleration framework that breaks this sequential bottleneck. Our key insight is that a lightweight, tool-free MLLM can serve as a speculative planner to predict the execution trajectory, enabling early termination of expensive tool chains without sacrificing accuracy. To regulate this speculative planning, we introduce a cognitive gating mechanism based on answer separability, which quantifies the model's confidence for self-verification without requiring oracle labels. Furthermore, we design a heterogeneous parallel funnel that exploits the stateless concurrency of the small model to mask the stateful serial execution of the large model, maximizing system throughput. Extensive experiments on V* Bench, HR-Bench, and POPE demonstrate that SpecEyes achieves 1.1-3.35x speedup over the agentic baseline while preserving or even improving accuracy (up to +6.7%), thereby boosting serving throughput under concurrent workloads.

SpecEyes: Accelerazione di LLM Agenti Multimodali tramite Percezione e Pianificazione Speculativa

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Abstract

Support