SpecEyes: 예측 기반 인식 및 계획을 통한 에이전트형 멀티모달 LLM 가속화
SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning
March 24, 2026
저자: Haoyu Huang, Jinfa Huang, Zhongwei Wan, Xiawu Zheng, Rongrong Ji, Jiebo Luo
cs.AI
초록
에이전트형 멀티모달 대규모 언어 모델(MLLM)(예: OpenAI o3, Gemini Agentic Vision)은 반복적인 시각적 도구 호출을 통해 뛰어난 추론 능력을 달성합니다. 그러나 이와 같은 연쇄적인 인지, 추론 및 도구 호출 루프는 상당한 순차적 오버헤드를 초래합니다. 에이전트 깊이(agentic depth)라고 명명된 이 오버헤드는 감당하기 어려운 지연 시간을 발생시키고 시스템 수준의 동시성을 심각하게 제한합니다. 이를 위해 우리는 이러한 순차적 병목 현상을 해결하는 에이전트 수준의 추론적 가속화 프레임워크인 SpecEyes를 제안합니다. 우리의 핵심 통찰은 경량화된 도구 비의존적 MLLM이 실행 궤적을 예측하는 추론적 플래너(speculative planner) 역할을 하여 정확도를 희생하지 않고도 고비용 도구 체인의 조기 종료를 가능하게 한다는 것입니다. 이러한 추론적 계획을 규제하기 위해 우리는 오라클 레이블 없이 모델의 신뢰도를 자체 검증할 수 있는 답변 분리도(answer separability) 기반의 인지 게이팅(cognitive gating) 메커니즘을 도입합니다. 더 나아가, 우리는 대형 모델의 상태 유지적 순차 실행을 숨기기 위해 소형 모델의 상태 비의존적 동시성을 활용하는 이기종 병렬 펀넬(heterogeneous parallel funnel)을 설계하여 시스템 처리량을 극대화합니다. V* Bench, HR-Bench 및 POPE에 대한 광범위한 실험을 통해 SpecEyes가 에이전트 기준선 대비 1.1-3.35배의 가속화를 달성하면서도 정확도를 유지하거나 오히려 향상(최대 +6.7%)시키며, 동시 작업 부하에서 서비스 처리량을 향상시킴을 입증했습니다.
English
Agentic multimodal large language models (MLLMs) (e.g., OpenAI o3 and Gemini Agentic Vision) achieve remarkable reasoning capabilities through iterative visual tool invocation. However, the cascaded perception, reasoning, and tool-calling loops introduce significant sequential overhead. This overhead, termed agentic depth, incurs prohibitive latency and seriously limits system-level concurrency. To this end, we propose SpecEyes, an agentic-level speculative acceleration framework that breaks this sequential bottleneck. Our key insight is that a lightweight, tool-free MLLM can serve as a speculative planner to predict the execution trajectory, enabling early termination of expensive tool chains without sacrificing accuracy. To regulate this speculative planning, we introduce a cognitive gating mechanism based on answer separability, which quantifies the model's confidence for self-verification without requiring oracle labels. Furthermore, we design a heterogeneous parallel funnel that exploits the stateless concurrency of the small model to mask the stateful serial execution of the large model, maximizing system throughput. Extensive experiments on V* Bench, HR-Bench, and POPE demonstrate that SpecEyes achieves 1.1-3.35x speedup over the agentic baseline while preserving or even improving accuracy (up to +6.7%), thereby boosting serving throughput under concurrent workloads.