ChatPaper.aiChatPaper

PANDO: 온라인 스킬 증류를 통한 효율적인 다중 모달 AI 에이전트

PANDO: Efficient Multimodal AI Agents via Online Skill Distillation

May 26, 2026
저자: Yubo Li, Yidi Miao, Yuntian Shen, Yuxin Liu
cs.AI

초록

최근 멀티모달 웹 에이전트의 발전은 종종 롤아웃 탐색, 검증기 패스, 오프라인 스킬 발견, 전문가 모델 스택 등을 포함한 추론 시 계산량 증가에 의존한다. 이는 핵심적인 질문을 제기한다: 웹 에이전트가 경험을 축적함에 따라 더 비용이 많이 드는 대신 더 효율적이 될 수 있는가? 먼저 VisualWebArena의 궤적을 분석하여 반복-행동 루프, 숨겨진 발견 비용, 낮은 프롬프트 캐시 재사용이라는 세 가지 반복적인 비효율성 원인을 식별한다. 그런 다음 PANDO를 소개한다. PANDO는 단일 롤아웃 온라인 스킬 증류 프레임워크로, 구조화된 스킬 라이브러리를 유지하며 진행 상황 반영, 신뢰도 기반 스킬 강등, 계층적 라우팅, 시각적 압축, 캐시 인식 프롬프팅을 결합한다. 총 910개의 VisualWebArena 작업에서 PANDO는 58.3%의 성공률을 달성하여 SGV(54.0%) 및 WALT 재현 실험(45.2%)을 능가하는 동시에 SGV보다 58%, WALT보다 61% 적은 토큰을 사용하며, 사전 평가 발견 비용이 전혀 없다. 300개 작업에 대한 추가 실험은 규칙과 루틴이 성공률 향상의 대부분을 제공하는 반면, 라우팅, 압축 및 캐시 인식 프롬프팅이 더 큰 스킬 라이브러리를 더 낮은 한계 토큰 비용으로 전환함을 보여준다. 마지막으로, 행동 반복률, 단계 오버헤드 비율, 프롬프트 캐시 활용률의 세 가지 궤적 수준 효율성 지표를 도입하여 최종 성공 너머에서도 효율성을 가시화한다.
English
Recent advances in multimodal web agents often rely on increased inference-time computation, including rollout search, verifier passes, offline skill discovery, and specialist model stacks. This raises a central question: can a web agent become more efficient as it accumulates experience, rather than more expensive? We first analyze trajectories from VisualWebArena and identify three recurring sources of inefficiency: repeat-action loops, hidden discovery costs, and low prompt-cache reuse. We then introduce PANDO, a single-rollout online skill-distillation framework that maintains a structured Skill Library and combines progress reflection, confidence-based skill demotion, hierarchical routing, visual compression, and cache-aware prompting. On the full set of 910 VisualWebArena tasks, PANDO achieves a 58.3% success rate, outperforming SGV (54.0%) and our WALT reproduction (45.2%), while using 58% fewer tokens than SGV and 61% fewer tokens than WALT, without any pre-evaluation discovery budget. A 300-task ablation further shows that rules and routines provide most of the success gains, while routing, compression, and cache-aware prompting convert the larger skill library into lower marginal token cost. Finally, we introduce three trajectory-level efficiency metrics -- Action Repetition Rate, Step Overhead Ratio, and Prompt Cache Utilization -- to make efficiency visible beyond terminal success.