PANDO: Эффективные мультимодальные ИИ-агенты посредством онлайн-дистилляции навыков

Аннотация

Последние достижения в области мультимодальных веб-агентов часто опираются на увеличение вычислительных затрат во время вывода, включая разверточный поиск, проверочные проходы, автономное обнаружение навыков и стеки специализированных моделей. Это поднимает ключевой вопрос: может ли веб-агент становиться более эффективным по мере накопления опыта, а не более дорогим? Сначала мы анализируем траектории из VisualWebArena и выявляем три повторяющихся источника неэффективности: циклы повторяющихся действий, скрытые затраты на обнаружение и низкое повторное использование кэша подсказок. Затем мы представляем PANDO — однопроходную онлайн-платформу для дистилляции навыков, которая поддерживает структурированную библиотеку навыков и объединяет рефлексию прогресса, понижение навыков на основе уверенности, иерархическую маршрутизацию, визуальное сжатие и кэш-осведомленное формирование подсказок. На полном наборе из 910 задач VisualWebArena PANDO достигает уровня успеха 58,3%, превосходя SGV (54,0%) и нашу репродукцию WALT (45,2%), при этом используя на 58% меньше токенов, чем SGV, и на 61% меньше токенов, чем WALT, без какого-либо предварительного бюджета на обнаружение. Абляция на 300 задачах дополнительно показывает, что правила и рутины обеспечивают большую часть прироста успеха, в то время как маршрутизация, сжатие и кэш-осведомленное формирование подсказок преобразуют более крупную библиотеку навыков в более низкие предельные затраты токенов. Наконец, мы вводим три метрики эффективности на уровне траектории — коэффициент повторения действий, коэффициент накладных расходов на шаг и использование кэша подсказок — чтобы сделать эффективность видимой за пределами конечного успеха.

English

Recent advances in multimodal web agents often rely on increased inference-time computation, including rollout search, verifier passes, offline skill discovery, and specialist model stacks. This raises a central question: can a web agent become more efficient as it accumulates experience, rather than more expensive? We first analyze trajectories from VisualWebArena and identify three recurring sources of inefficiency: repeat-action loops, hidden discovery costs, and low prompt-cache reuse. We then introduce PANDO, a single-rollout online skill-distillation framework that maintains a structured Skill Library and combines progress reflection, confidence-based skill demotion, hierarchical routing, visual compression, and cache-aware prompting. On the full set of 910 VisualWebArena tasks, PANDO achieves a 58.3% success rate, outperforming SGV (54.0%) and our WALT reproduction (45.2%), while using 58% fewer tokens than SGV and 61% fewer tokens than WALT, without any pre-evaluation discovery budget. A 300-task ablation further shows that rules and routines provide most of the success gains, while routing, compression, and cache-aware prompting convert the larger skill library into lower marginal token cost. Finally, we introduce three trajectory-level efficiency metrics -- Action Repetition Rate, Step Overhead Ratio, and Prompt Cache Utilization -- to make efficiency visible beyond terminal success.