SpecEyes: Aceleración de LLMs Multimodales Agénticos mediante Percepción y Planificación Especulativas

Resumen

Los modelos de agentes lingüísticos multimodales de gran tamaño (MLLMs) (por ejemplo, OpenAI o3 y Gemini Agentic Vision) logran capacidades de razonamiento notables mediante la invocación iterativa de herramientas visuales. Sin embargo, los bucles en cascada de percepción, razonamiento y llamadas a herramientas introducen una sobrecarga secuencial significativa. Esta sobrecarga, denominada profundidad agentica, incurre en una latencia prohibitiva y limita seriamente la concurrencia a nivel del sistema. Para ello, proponemos SpecEyes, un marco de aceleración especulativa a nivel agentico que rompe este cuello de botella secuencial. Nuestra idea clave es que un MLLM ligero y sin herramientas puede actuar como un planificador especulativo para predecir la trayectoria de ejecución, permitiendo la terminación anticipada de cadenas de herramientas costosas sin sacrificar la precisión. Para regular esta planificación especulativa, introducimos un mecanismo de compuerta cognitiva basado en la separabilidad de respuestas, que cuantifica la confianza del modelo para la auto-verificación sin requerir etiquetas de referencia. Además, diseñamos un embudo paralelo heterogéneo que aprovecha la concurrencia sin estado del modelo pequeño para enmascarar la ejecución serial con estado del modelo grande, maximizando el rendimiento del sistema. Experimentos exhaustivos en V* Bench, HR-Bench y POPE demuestran que SpecEyes logra una aceleración de 1.1-3.35x sobre la línea base agentica, preservando o incluso mejorando la precisión (hasta +6.7%), impulsando así el rendimiento de servicio bajo cargas de trabajo concurrentes.

English

Agentic multimodal large language models (MLLMs) (e.g., OpenAI o3 and Gemini Agentic Vision) achieve remarkable reasoning capabilities through iterative visual tool invocation. However, the cascaded perception, reasoning, and tool-calling loops introduce significant sequential overhead. This overhead, termed agentic depth, incurs prohibitive latency and seriously limits system-level concurrency. To this end, we propose SpecEyes, an agentic-level speculative acceleration framework that breaks this sequential bottleneck. Our key insight is that a lightweight, tool-free MLLM can serve as a speculative planner to predict the execution trajectory, enabling early termination of expensive tool chains without sacrificing accuracy. To regulate this speculative planning, we introduce a cognitive gating mechanism based on answer separability, which quantifies the model's confidence for self-verification without requiring oracle labels. Furthermore, we design a heterogeneous parallel funnel that exploits the stateless concurrency of the small model to mask the stateful serial execution of the large model, maximizing system throughput. Extensive experiments on V* Bench, HR-Bench, and POPE demonstrate that SpecEyes achieves 1.1-3.35x speedup over the agentic baseline while preserving or even improving accuracy (up to +6.7%), thereby boosting serving throughput under concurrent workloads.

SpecEyes: Aceleración de LLMs Multimodales Agénticos mediante Percepción y Planificación Especulativas

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Resumen

Support