WILBUR: Adaptief In-Context Leren voor Robuuste en Nauwkeurige Webagentschappen
WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents
April 8, 2024
Auteurs: Michael Lutz, Arth Bohra, Manvel Saroyan, Artem Harutyunyan, Giovanni Campagna
cs.AI
Samenvatting
Op het gebied van webagentonderzoek blijft het bereiken van zowel generalisatie als nauwkeurigheid een uitdagend probleem. Door de grote variatie in website-structuren falen bestaande benaderingen vaak. Bovendien slagen bestaande fine-tuning- en in-context learning-technieken er niet in om te generaliseren over meerdere websites. Wij introduceren Wilbur, een benadering die een differentieerbaar rangschikkingsmodel en een nieuwe instructiesynthesetechniek gebruikt om de prompt van een black-box groot taalmodel optimaal te vullen met taakdemonstraties uit eerdere uitvoeringen. Om de end-to-end slagingspercentages te maximaliseren, stellen we ook een intelligent backtracking-mechanisme voor dat leert van zijn fouten en deze herstelt. Ten slotte laten we zien dat ons rangschikkingsmodel getraind kan worden op gegevens van een generatief autocurriculum dat representatieve doelen bemonstert uit een LLM, de agent uitvoert en deze automatisch evalueert, zonder handmatige annotatie. Wilbur behaalt state-of-the-art resultaten op de WebVoyager-benchmark, waarbij tekstmodellen met 8% overall worden verslagen, en tot 36% op bepaalde websites. Op dezelfde benchmark zit Wilbur binnen 5% van een sterk multimodaal model, ondanks dat het alleen tekstuele invoer ontvangt, en verdere analyse toont aan dat een aanzienlijk aantal fouten te wijten is aan technische uitdagingen bij het bedienen van het web.
English
In the realm of web agent research, achieving both generalization and
accuracy remains a challenging problem. Due to high variance in website
structure, existing approaches often fail. Moreover, existing fine-tuning and
in-context learning techniques fail to generalize across multiple websites. We
introduce Wilbur, an approach that uses a differentiable ranking model and a
novel instruction synthesis technique to optimally populate a black-box large
language model's prompt with task demonstrations from previous runs. To
maximize end-to-end success rates, we also propose an intelligent backtracking
mechanism that learns and recovers from its mistakes. Finally, we show that our
ranking model can be trained on data from a generative auto-curriculum which
samples representative goals from an LLM, runs the agent, and automatically
evaluates it, with no manual annotation. Wilbur achieves state-of-the-art
results on the WebVoyager benchmark, beating text-only models by 8% overall,
and up to 36% on certain websites. On the same benchmark, Wilbur is within 5%
of a strong multi-modal model despite only receiving textual inputs, and
further analysis reveals a substantial number of failures are due to
engineering challenges of operating the web.