PANDO: Agentes de IA Multimodales Eficientes mediante Destilación de Habilidades en Línea

Resumen

Los avances recientes en agentes web multimodales a menudo dependen de un mayor cómputo en tiempo de inferencia, incluyendo búsqueda por despliegue, pasos de verificación, descubrimiento de habilidades fuera de línea y pilas de modelos especializados. Esto plantea una pregunta central: ¿puede un agente web volverse más eficiente a medida que acumula experiencia, en lugar de más costoso? Primero analizamos trayectorias de VisualWebArena e identificamos tres fuentes recurrentes de ineficiencia: bucles de acciones repetidas, costos ocultos de descubrimiento y baja reutilización de caché de indicaciones. Luego presentamos PANDO, un marco de destilación de habilidades en línea de un solo despliegue que mantiene una Biblioteca de Habilidades estructurada y combina reflexión de progreso, degradación de habilidades basada en confianza, enrutamiento jerárquico, compresión visual e indicaciones conscientes de caché. En el conjunto completo de 910 tareas de VisualWebArena, PANDO alcanza una tasa de éxito del 58.3%, superando a SGV (54.0%) y nuestra reproducción de WALT (45.2%), mientras utiliza un 58% menos de tokens que SGV y un 61% menos que WALT, sin ningún presupuesto de descubrimiento previo a la evaluación. Un estudio de ablación de 300 tareas muestra además que las reglas y rutinas proporcionan la mayor parte de las ganancias en éxito, mientras que el enrutamiento, la compresión y las indicaciones conscientes de caché convierten la biblioteca de habilidades más grande en un costo marginal de tokens menor. Finalmente, introducimos tres métricas de eficiencia a nivel de trayectoria —Tasa de Repetición de Acciones, Relación de Sobrecarga por Paso y Utilización de Caché de Indicaciones— para hacer visible la eficiencia más allá del éxito terminal.

English

Recent advances in multimodal web agents often rely on increased inference-time computation, including rollout search, verifier passes, offline skill discovery, and specialist model stacks. This raises a central question: can a web agent become more efficient as it accumulates experience, rather than more expensive? We first analyze trajectories from VisualWebArena and identify three recurring sources of inefficiency: repeat-action loops, hidden discovery costs, and low prompt-cache reuse. We then introduce PANDO, a single-rollout online skill-distillation framework that maintains a structured Skill Library and combines progress reflection, confidence-based skill demotion, hierarchical routing, visual compression, and cache-aware prompting. On the full set of 910 VisualWebArena tasks, PANDO achieves a 58.3% success rate, outperforming SGV (54.0%) and our WALT reproduction (45.2%), while using 58% fewer tokens than SGV and 61% fewer tokens than WALT, without any pre-evaluation discovery budget. A 300-task ablation further shows that rules and routines provide most of the success gains, while routing, compression, and cache-aware prompting convert the larger skill library into lower marginal token cost. Finally, we introduce three trajectory-level efficiency metrics -- Action Repetition Rate, Step Overhead Ratio, and Prompt Cache Utilization -- to make efficiency visible beyond terminal success.