WILBUR: Adaptives In-Context-Lernen für robuste und präzise Web-Agenten
WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents
April 8, 2024
Autoren: Michael Lutz, Arth Bohra, Manvel Saroyan, Artem Harutyunyan, Giovanni Campagna
cs.AI
Zusammenfassung
Im Bereich der Web-Agentenforschung bleibt es eine herausfordernde Aufgabe, sowohl Generalisierung als auch Genauigkeit zu erreichen. Aufgrund der hohen Varianz in der Struktur von Websites scheitern bestehende Ansätze oft. Darüber hinaus gelingt es bestehenden Feinabstimmungs- und In-Context-Lerntechniken nicht, über mehrere Websites hinweg zu generalisieren. Wir stellen Wilbur vor, einen Ansatz, der ein differenzierbares Ranking-Modell und eine neuartige Anleitungssynthesetechnik verwendet, um eine Black-Box eines großen Sprachmodells optimal mit Aufgaben-Demonstrationen aus früheren Durchläufen zu füllen. Um den Gesamterfolg zu maximieren, schlagen wir auch einen intelligenten Backtracking-Mechanismus vor, der aus Fehlern lernt und sich davon erholt. Schließlich zeigen wir, dass unser Ranking-Modell mit Daten aus einem generativen Auto-Lehrplan trainiert werden kann, der repräsentative Ziele aus einem LLM auswählt, den Agenten ausführt und automatisch bewertet, ohne manuelle Annotationen. Wilbur erzielt Spitzenleistungsergebnisse im WebVoyager-Benchmark, indem es Textmodelle insgesamt um 8% übertrifft und auf bestimmten Websites um bis zu 36% übertrifft. Im selben Benchmark liegt Wilbur trotz nur textueller Eingaben innerhalb von 5% eines starken multimodalen Modells, und weitere Analysen zeigen, dass eine beträchtliche Anzahl von Fehlern auf technische Herausforderungen beim Betrieb des Webs zurückzuführen ist.
English
In the realm of web agent research, achieving both generalization and
accuracy remains a challenging problem. Due to high variance in website
structure, existing approaches often fail. Moreover, existing fine-tuning and
in-context learning techniques fail to generalize across multiple websites. We
introduce Wilbur, an approach that uses a differentiable ranking model and a
novel instruction synthesis technique to optimally populate a black-box large
language model's prompt with task demonstrations from previous runs. To
maximize end-to-end success rates, we also propose an intelligent backtracking
mechanism that learns and recovers from its mistakes. Finally, we show that our
ranking model can be trained on data from a generative auto-curriculum which
samples representative goals from an LLM, runs the agent, and automatically
evaluates it, with no manual annotation. Wilbur achieves state-of-the-art
results on the WebVoyager benchmark, beating text-only models by 8% overall,
and up to 36% on certain websites. On the same benchmark, Wilbur is within 5%
of a strong multi-modal model despite only receiving textual inputs, and
further analysis reveals a substantial number of failures are due to
engineering challenges of operating the web.Summary
AI-Generated Summary