SpecEyes: Acelerando LLMs Multimodais Agênticos por meio de Percepção e Planejamento Especulativos

Resumo

Os modelos de linguagem grandes multimodais agentivos (MLLMs) (por exemplo, OpenAI o3 e Gemini Agentic Vision) alcançam capacidades de raciocínio notáveis por meio da invocação iterativa de ferramentas visuais. No entanto, os ciclos em cascata de percepção, raciocínio e chamada de ferramentas introduzem uma sobrecarga sequencial significativa. Essa sobrecarga, denominada profundidade agentiva, incorre em latência proibitiva e limita seriamente a concorrência a nível de sistema. Para tal, propomos o SpecEyes, uma estrutura de aceleração especulativa a nível agentivo que quebra este gargalo sequencial. A nossa principal perceção é que um MLLM leve e sem ferramentas pode servir como um planeador especulativo para prever a trajetória de execução, permitindo a terminação antecipada de cadeias de ferramentas dispendiosas sem sacrificar a precisão. Para regular este planeamento especulativo, introduzimos um mecanismo de portão cognitivo baseado na separabilidade de respostas, que quantifica a confiança do modelo para autoverificação sem exigir etiquetas de referência. Adicionalmente, projetamos um funil paralelo heterogéneo que explora a concorrência sem estado do modelo pequeno para mascarar a execução serial com estado do modelo grande, maximizando a produtividade do sistema. Experiências extensivas no V* Bench, HR-Bench e POPE demonstram que o SpecEyes alcança uma aceleração de 1.1-3.35x em relação à linha de base agentiva, preservando ou mesmo melhorando a precisão (até +6.7%), impulsionando assim a produtividade de serviço sob cargas de trabalho concorrentes.

English

Agentic multimodal large language models (MLLMs) (e.g., OpenAI o3 and Gemini Agentic Vision) achieve remarkable reasoning capabilities through iterative visual tool invocation. However, the cascaded perception, reasoning, and tool-calling loops introduce significant sequential overhead. This overhead, termed agentic depth, incurs prohibitive latency and seriously limits system-level concurrency. To this end, we propose SpecEyes, an agentic-level speculative acceleration framework that breaks this sequential bottleneck. Our key insight is that a lightweight, tool-free MLLM can serve as a speculative planner to predict the execution trajectory, enabling early termination of expensive tool chains without sacrificing accuracy. To regulate this speculative planning, we introduce a cognitive gating mechanism based on answer separability, which quantifies the model's confidence for self-verification without requiring oracle labels. Furthermore, we design a heterogeneous parallel funnel that exploits the stateless concurrency of the small model to mask the stateful serial execution of the large model, maximizing system throughput. Extensive experiments on V* Bench, HR-Bench, and POPE demonstrate that SpecEyes achieves 1.1-3.35x speedup over the agentic baseline while preserving or even improving accuracy (up to +6.7%), thereby boosting serving throughput under concurrent workloads.

SpecEyes: Acelerando LLMs Multimodais Agênticos por meio de Percepção e Planejamento Especulativos

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Resumo

Support