SpecEyes: Versnelling van Agentische Multimodale LLM's via Speculatieve Waarneming en Planning

Samenvatting

Agentische multimodale grote taalmodellen (MLLM's) (bijvoorbeeld OpenAI o3 en Gemini Agentic Vision) bereiken opmerkelijke redeneercapaciteiten door iteratieve aanroeping van visuele tools. De gecascadeerde lussen van perceptie, redenering en tool-aanroeping introduceren echter aanzienlijke sequentiële overhead. Deze overhead, agentische diepte genoemd, veroorzaakt onaanvaardbare latentie en beperkt de systeemgelijktijdigheid ernstig. Daartoe stellen wij SpecEyes voor, een raamwerk voor agentische speculatieve versnelling dat deze sequentiële bottleneck doorbreekt. Onze belangrijkste inzicht is dat een lichtgewicht, toolvrij MLLM kan dienen als een speculatieve planner om de uitvoeringstrajectorie te voorspellen, waardoor vroegtijdige beëindiging van dure toolketens mogelijk wordt zonder de nauwkeurigheid op te offeren. Om deze speculatieve planning te reguleren, introduceren we een cognitief gatingmechanisme gebaseerd op antwoordscheidbaarheid, dat het vertrouwen van het model kwantificeert voor zelfverificatie zonder gebruik te maken van oracle-labels. Verder ontwerpen we een heterogene parallelle trechter die de toestandsloze gelijktijdigheid van het kleine model benut om de toestandsgebonden seriële uitvoering van het grote model te maskeren, waardoor de systeemdoorvoer wordt gemaximaliseerd. Uitgebreide experimenten op V* Bench, HR-Bench en POPE tonen aan dat SpecEyes een versnelling van 1.1-3.35x bereikt ten opzichte van de agentische baseline, terwijl de nauwkeurigheid behouden blijft of zelfs verbetert (tot +6.7%), waardoor de servicedoorvoer onder gelijktijdige workloads wordt verhoogd.

English

Agentic multimodal large language models (MLLMs) (e.g., OpenAI o3 and Gemini Agentic Vision) achieve remarkable reasoning capabilities through iterative visual tool invocation. However, the cascaded perception, reasoning, and tool-calling loops introduce significant sequential overhead. This overhead, termed agentic depth, incurs prohibitive latency and seriously limits system-level concurrency. To this end, we propose SpecEyes, an agentic-level speculative acceleration framework that breaks this sequential bottleneck. Our key insight is that a lightweight, tool-free MLLM can serve as a speculative planner to predict the execution trajectory, enabling early termination of expensive tool chains without sacrificing accuracy. To regulate this speculative planning, we introduce a cognitive gating mechanism based on answer separability, which quantifies the model's confidence for self-verification without requiring oracle labels. Furthermore, we design a heterogeneous parallel funnel that exploits the stateless concurrency of the small model to mask the stateful serial execution of the large model, maximizing system throughput. Extensive experiments on V* Bench, HR-Bench, and POPE demonstrate that SpecEyes achieves 1.1-3.35x speedup over the agentic baseline while preserving or even improving accuracy (up to +6.7%), thereby boosting serving throughput under concurrent workloads.

SpecEyes: Versnelling van Agentische Multimodale LLM's via Speculatieve Waarneming en Planning

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Samenvatting

Support