SpecEyes: Beschleunigung agentiver multimodaler LLMs durch spekulative Wahrnehmung und Planung

Zusammenfassung

Agentische multimodale Large Language Models (MLLMs) (z.B. OpenAI o3 und Gemini Agentic Vision) erreichen bemerkenswerte Reasoning-Fähigkeiten durch iterative Aufrufe visueller Tools. Die kaskadierten Schleifen aus Wahrnehmung, Reasoning und Tool-Aufruf führen jedoch zu erheblichem sequentiellem Overhead. Dieser Overhead, bezeichnet als agentische Tiefe, verursacht prohibitive Latenz und schränkt die System-Level-Parallelität stark ein. Daher schlagen wir SpecEyes vor, ein agentisches spekulatives Beschleunigungsframework, das diesen sequentiellen Engpass durchbricht. Unsere zentrale Erkenntnis ist, dass ein leichtgewichtiger, tool-freier MLLM als spekulativer Planer dienen kann, um die Ausführungstrajektorie vorherzusagen und so einen vorzeitigen Abbruch teurer Tool-Ketten ohne Genauigkeitsverlust zu ermöglichen. Um diese spekulative Planung zu steuern, führen wir einen kognitiven Gating-Mechanismus auf Basis von Antwort-Separierbarkeit ein, der das Modellvertrauen zur Selbstverifikation quantifiziert, ohne Ground-Truth-Labels zu benötigen. Des Weiteren entwerfen wir einen heterogenen parallelen Funnel, der die zustandslose Nebenläufigkeit des kleinen Modells ausnutzt, um die zustandsbehaftete serielle Ausführung des großen Modells zu überlagern und den Systemdurchsatz zu maximieren. Umfangreiche Experimente auf V* Bench, HR-Bench und POPE zeigen, dass SpecEyes eine 1,1- bis 3,35-fache Beschleunigung gegenüber dem agentischen Baseline-System erreicht, während die Genauigkeit erhalten oder sogar verbessert wird (bis zu +6,7 %), wodurch der Serving-Durchsatz unter parallelen Workloads gesteigert wird.

English

Agentic multimodal large language models (MLLMs) (e.g., OpenAI o3 and Gemini Agentic Vision) achieve remarkable reasoning capabilities through iterative visual tool invocation. However, the cascaded perception, reasoning, and tool-calling loops introduce significant sequential overhead. This overhead, termed agentic depth, incurs prohibitive latency and seriously limits system-level concurrency. To this end, we propose SpecEyes, an agentic-level speculative acceleration framework that breaks this sequential bottleneck. Our key insight is that a lightweight, tool-free MLLM can serve as a speculative planner to predict the execution trajectory, enabling early termination of expensive tool chains without sacrificing accuracy. To regulate this speculative planning, we introduce a cognitive gating mechanism based on answer separability, which quantifies the model's confidence for self-verification without requiring oracle labels. Furthermore, we design a heterogeneous parallel funnel that exploits the stateless concurrency of the small model to mask the stateful serial execution of the large model, maximizing system throughput. Extensive experiments on V* Bench, HR-Bench, and POPE demonstrate that SpecEyes achieves 1.1-3.35x speedup over the agentic baseline while preserving or even improving accuracy (up to +6.7%), thereby boosting serving throughput under concurrent workloads.

SpecEyes: Beschleunigung agentiver multimodaler LLMs durch spekulative Wahrnehmung und Planung

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Zusammenfassung

Support