PANDO : Agents IA multimodaux efficaces via la distillation de compétences en ligne

Résumé

Les avancées récentes dans les agents web multimodaux reposent souvent sur un accroissement du calcul au moment de l’inférence, notamment la recherche par déploiement, les passages de vérificateur, la découverte de compétences hors ligne et les piles de modèles spécialisés. Cela soulève une question centrale : un agent web peut-il devenir plus efficace à mesure qu’il accumule de l’expérience, plutôt que plus coûteux ? Nous analysons d’abord des trajectoires issues de VisualWebArena et identifions trois sources récurrentes d’inefficacité : les boucles d’actions répétées, les coûts de découverte cachés et la faible réutilisation du cache de prompt. Nous introduisons ensuite PANDO, un cadre de distillation de compétences en ligne à déploiement unique qui maintient une Bibliothèque de Compétences structurée et combine réflexion sur la progression, rétrogradation de compétence basée sur la confiance, routage hiérarchique, compression visuelle et génération de prompts adaptée au cache. Sur l’ensemble des 910 tâches de VisualWebArena, PANDO atteint un taux de réussite de 58,3 %, surpassant SGV (54,0 %) et notre reproduction WALT (45,2 %), tout en utilisant 58 % de tokens de moins que SGV et 61 % de tokens de moins que WALT, sans aucun budget de découverte avant évaluation. Une ablation sur 300 tâches montre en outre que les règles et routines fournissent l’essentiel des gains en réussite, tandis que le routage, la compression et la génération de prompts adaptée au cache convertissent la bibliothèque de compétences plus vaste en un coût marginal en tokens plus faible. Enfin, nous introduisons trois métriques d’efficacité au niveau de la trajectoire — le Taux de Répétition d’Action, le Ratio de Surcharge par Étape et l’Utilisation du Cache de Prompt — afin de rendre l’efficacité visible au-delà du seul succès terminal.

English

Recent advances in multimodal web agents often rely on increased inference-time computation, including rollout search, verifier passes, offline skill discovery, and specialist model stacks. This raises a central question: can a web agent become more efficient as it accumulates experience, rather than more expensive? We first analyze trajectories from VisualWebArena and identify three recurring sources of inefficiency: repeat-action loops, hidden discovery costs, and low prompt-cache reuse. We then introduce PANDO, a single-rollout online skill-distillation framework that maintains a structured Skill Library and combines progress reflection, confidence-based skill demotion, hierarchical routing, visual compression, and cache-aware prompting. On the full set of 910 VisualWebArena tasks, PANDO achieves a 58.3% success rate, outperforming SGV (54.0%) and our WALT reproduction (45.2%), while using 58% fewer tokens than SGV and 61% fewer tokens than WALT, without any pre-evaluation discovery budget. A 300-task ablation further shows that rules and routines provide most of the success gains, while routing, compression, and cache-aware prompting convert the larger skill library into lower marginal token cost. Finally, we introduce three trajectory-level efficiency metrics -- Action Repetition Rate, Step Overhead Ratio, and Prompt Cache Utilization -- to make efficiency visible beyond terminal success.