PANDO: Agentes de IA Multimodais Eficientes via Destilação de Habilidades Online

Resumo

Avanços recentes em agentes web multimodais frequentemente dependem do aumento da computação em tempo de inferência, incluindo busca de rollout, passagens de verificador, descoberta offline de habilidades e pilhas de modelos especialistas. Isso levanta uma questão central: um agente web pode se tornar mais eficiente à medida que acumula experiência, em vez de mais caro? Primeiramente, analisamos trajetórias do VisualWebArena e identificamos três fontes recorrentes de ineficiência: loops de repetição de ações, custos ocultos de descoberta e baixo reuso de cache de prompts. Em seguida, apresentamos o PANDO, um framework de destilação online de habilidades com rollout único que mantém uma Biblioteca de Habilidades estruturada e combina reflexão de progresso, rebaixamento de habilidades baseado em confiança, roteamento hierárquico, compressão visual e prompting ciente de cache. No conjunto completo das 910 tarefas do VisualWebArena, o PANDO alcança uma taxa de sucesso de 58,3%, superando o SGV (54,0%) e nossa reprodução do WALT (45,2%), enquanto utiliza 58% menos tokens que o SGV e 61% menos tokens que o WALT, sem qualquer orçamento de descoberta pré-avaliação. Uma ablação com 300 tarefas mostra ainda que regras e rotinas fornecem a maior parte dos ganhos de sucesso, enquanto roteamento, compressão e prompting ciente de cache convertem a biblioteca de habilidades maior em menor custo marginal de tokens. Por fim, introduzimos três métricas de eficiência em nível de trajetória — Taxa de Repetição de Ações, Razão de Sobrecarga de Passos e Utilização de Cache de Prompts — para tornar a eficiência visível além do sucesso terminal.

English

Recent advances in multimodal web agents often rely on increased inference-time computation, including rollout search, verifier passes, offline skill discovery, and specialist model stacks. This raises a central question: can a web agent become more efficient as it accumulates experience, rather than more expensive? We first analyze trajectories from VisualWebArena and identify three recurring sources of inefficiency: repeat-action loops, hidden discovery costs, and low prompt-cache reuse. We then introduce PANDO, a single-rollout online skill-distillation framework that maintains a structured Skill Library and combines progress reflection, confidence-based skill demotion, hierarchical routing, visual compression, and cache-aware prompting. On the full set of 910 VisualWebArena tasks, PANDO achieves a 58.3% success rate, outperforming SGV (54.0%) and our WALT reproduction (45.2%), while using 58% fewer tokens than SGV and 61% fewer tokens than WALT, without any pre-evaluation discovery budget. A 300-task ablation further shows that rules and routines provide most of the success gains, while routing, compression, and cache-aware prompting convert the larger skill library into lower marginal token cost. Finally, we introduce three trajectory-level efficiency metrics -- Action Repetition Rate, Step Overhead Ratio, and Prompt Cache Utilization -- to make efficiency visible beyond terminal success.