SpecEyes: Ускорение агентных мультимодальных LLM с помощью спекулятивного восприятия и планирования

Аннотация

Агентные мультимодальные крупные языковые модели (MLLM) (например, OpenAI o3 и Gemini Agentic Vision) демонстрируют выдающиеся способности к рассуждениям за счёт итеративного вызова визуальных инструментов. Однако каскадные циклы восприятия, рассуждений и вызова инструментов создают значительные последовательные накладные расходы. Эти расходы, обозначаемые как *агентная глубина*, приводят к неприемлемой задержке и серьёзно ограничивают системную параллельность. Для решения этой проблемы мы предлагаем SpecEyes — фреймворк для спекулятивного ускорения на уровне агентов, который устраняет это последовательное узкое место. Ключевая идея заключается в том, что облегчённая MLLM, не использующая инструменты, может выступать в роли спекулятивного планировщика, предсказывающего траекторию выполнения, что позволяет досрочно завершать работу затратных цепочек инструментов без потери точности. Для регулирования этого спекулятивного планирования мы вводим когнитивный механизм управления на основе разделимости ответов, который количественно оценивает уверенность модели для самопроверки без необходимости в эталонных метках. Кроме того, мы разрабатываем гетерогенный параллельный конвейер, который использует несохраняющую состояние параллельность малой модели для маскировки сохраняющего состояние последовательного выполнения крупной модели, максимизируя пропускную способность системы. Многочисленные эксперименты на V* Bench, HR-Bench и POPE показывают, что SpecEyes обеспечивает ускорение в 1.1–3.35 раза по сравнению с агентным базовым уровнем, сохраняя или даже улучшая точность (до +6.7%), тем самым повышая пропускную способность системы при параллельных рабочих нагрузках.

English

Agentic multimodal large language models (MLLMs) (e.g., OpenAI o3 and Gemini Agentic Vision) achieve remarkable reasoning capabilities through iterative visual tool invocation. However, the cascaded perception, reasoning, and tool-calling loops introduce significant sequential overhead. This overhead, termed agentic depth, incurs prohibitive latency and seriously limits system-level concurrency. To this end, we propose SpecEyes, an agentic-level speculative acceleration framework that breaks this sequential bottleneck. Our key insight is that a lightweight, tool-free MLLM can serve as a speculative planner to predict the execution trajectory, enabling early termination of expensive tool chains without sacrificing accuracy. To regulate this speculative planning, we introduce a cognitive gating mechanism based on answer separability, which quantifies the model's confidence for self-verification without requiring oracle labels. Furthermore, we design a heterogeneous parallel funnel that exploits the stateless concurrency of the small model to mask the stateful serial execution of the large model, maximizing system throughput. Extensive experiments on V* Bench, HR-Bench, and POPE demonstrate that SpecEyes achieves 1.1-3.35x speedup over the agentic baseline while preserving or even improving accuracy (up to +6.7%), thereby boosting serving throughput under concurrent workloads.

SpecEyes: Ускорение агентных мультимодальных LLM с помощью спекулятивного восприятия и планирования

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Аннотация

Support