SpecEyes : Accélération des LLMs multimodaux agentiques par perception et planification spéculatives

Résumé

Les modèles de langue multimodaux agentiques (MLLMs) (par exemple, OpenAI o3 et Gemini Agentic Vision) atteignent des capacités de raisonnement remarquables grâce à l'invocation itérative d'outils visuels. Cependant, les boucles en cascade de perception, de raisonnement et d'appel d'outils introduisent une surcharge séquentielle significative. Cette surcharge, appelée profondeur agentique, entraîne une latence prohibitive et limite sérieusement la concurrence au niveau du système. À cette fin, nous proposons SpecEyes, un cadre d'accélération spéculatif de niveau agentique qui brise ce goulot d'étranglement séquentiel. Notre idée clé est qu'un MLLM léger, sans outil, peut servir de planificateur spéculatif pour prédire la trajectoire d'exécution, permettant une terminaison anticipée des chaînes d'outils coûteuses sans sacrifier la précision. Pour réguler cette planification spéculative, nous introduisons un mécanisme de porte cognitive basé sur la séparabilité des réponses, qui quantifie la confiance du modèle pour une auto-vérification sans nécessiter d'étiquettes de référence. De plus, nous concevons un entonnoir parallèle hétérogène qui exploite la concurrence sans état du petit modèle pour masquer l'exécution sérieuse avec état du grand modèle, maximisant ainsi le débit du système. Des expériences approfondies sur V* Bench, HR-Bench et POPE démontrent que SpecEyes atteint une accélération de 1,1 à 3,35x par rapport au système agentique de référence tout en préservant, voire en améliorant la précision (jusqu'à +6,7%), augmentant ainsi le débit de service sous des charges de travail concurrentes.

English

Agentic multimodal large language models (MLLMs) (e.g., OpenAI o3 and Gemini Agentic Vision) achieve remarkable reasoning capabilities through iterative visual tool invocation. However, the cascaded perception, reasoning, and tool-calling loops introduce significant sequential overhead. This overhead, termed agentic depth, incurs prohibitive latency and seriously limits system-level concurrency. To this end, we propose SpecEyes, an agentic-level speculative acceleration framework that breaks this sequential bottleneck. Our key insight is that a lightweight, tool-free MLLM can serve as a speculative planner to predict the execution trajectory, enabling early termination of expensive tool chains without sacrificing accuracy. To regulate this speculative planning, we introduce a cognitive gating mechanism based on answer separability, which quantifies the model's confidence for self-verification without requiring oracle labels. Furthermore, we design a heterogeneous parallel funnel that exploits the stateless concurrency of the small model to mask the stateful serial execution of the large model, maximizing system throughput. Extensive experiments on V* Bench, HR-Bench, and POPE demonstrate that SpecEyes achieves 1.1-3.35x speedup over the agentic baseline while preserving or even improving accuracy (up to +6.7%), thereby boosting serving throughput under concurrent workloads.

SpecEyes : Accélération des LLMs multimodaux agentiques par perception et planification spéculatives

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Résumé

Support