WILBUR : Apprentissage contextuel adaptatif pour des agents web robustes et précis
WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents
April 8, 2024
Auteurs: Michael Lutz, Arth Bohra, Manvel Saroyan, Artem Harutyunyan, Giovanni Campagna
cs.AI
Résumé
Dans le domaine de la recherche sur les agents web, atteindre à la fois la généralisation et la précision reste un problème complexe. En raison de la grande variabilité des structures de sites web, les approches existantes échouent souvent. De plus, les techniques actuelles de fine-tuning et d'apprentissage en contexte ne parviennent pas à généraliser efficacement sur plusieurs sites web. Nous présentons Wilbur, une approche qui utilise un modèle de classement différentiable et une nouvelle technique de synthèse d'instructions pour peupler de manière optimale l'invite d'un modèle de langage de grande envergure (LLM) avec des démonstrations de tâches issues d'exécutions précédentes. Pour maximiser les taux de réussite de bout en bout, nous proposons également un mécanisme intelligent de retour en arrière qui apprend et se corrige de ses erreurs. Enfin, nous montrons que notre modèle de classement peut être entraîné sur des données issues d'un auto-curriculum génératif qui échantillonne des objectifs représentatifs à partir d'un LLM, exécute l'agent et l'évalue automatiquement, sans annotation manuelle. Wilbur obtient des résultats de pointe sur le benchmark WebVoyager, surpassant les modèles textuels de 8 % en moyenne, et jusqu'à 36 % sur certains sites web. Sur le même benchmark, Wilbur se situe à moins de 5 % d'un modèle multimodal performant bien qu'il ne reçoive que des entrées textuelles, et une analyse approfondie révèle qu'un nombre important d'échecs est dû aux défis techniques liés à l'exploitation du web.
English
In the realm of web agent research, achieving both generalization and
accuracy remains a challenging problem. Due to high variance in website
structure, existing approaches often fail. Moreover, existing fine-tuning and
in-context learning techniques fail to generalize across multiple websites. We
introduce Wilbur, an approach that uses a differentiable ranking model and a
novel instruction synthesis technique to optimally populate a black-box large
language model's prompt with task demonstrations from previous runs. To
maximize end-to-end success rates, we also propose an intelligent backtracking
mechanism that learns and recovers from its mistakes. Finally, we show that our
ranking model can be trained on data from a generative auto-curriculum which
samples representative goals from an LLM, runs the agent, and automatically
evaluates it, with no manual annotation. Wilbur achieves state-of-the-art
results on the WebVoyager benchmark, beating text-only models by 8% overall,
and up to 36% on certain websites. On the same benchmark, Wilbur is within 5%
of a strong multi-modal model despite only receiving textual inputs, and
further analysis reveals a substantial number of failures are due to
engineering challenges of operating the web.Summary
AI-Generated Summary