УИЛБУР: Адаптивное контекстное обучение для надежных и точных веб-агентов
WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents
April 8, 2024
Авторы: Michael Lutz, Arth Bohra, Manvel Saroyan, Artem Harutyunyan, Giovanni Campagna
cs.AI
Аннотация
В области исследований веб-агентов достижение как обобщения, так и точности остается сложной задачей. Из-за высокой вариации в структуре веб-сайтов существующие подходы часто терпят неудачу. Более того, существующие техники настройки и контекстного обучения не способны обобщаться на несколько веб-сайтов. Мы представляем подход Wilbur, который использует дифференцируемую модель ранжирования и новую технику синтеза инструкций для оптимального заполнения запроса черного ящика большой языковой модели демонстрациями задач из предыдущих запусков. Для максимизации общих показателей успеха мы также предлагаем интеллектуальный механизм отката, который учится и исправляет свои ошибки. Наконец, мы показываем, что наша модель ранжирования может быть обучена на данных из генеративного авто-учебного плана, который выбирает представительные цели из LLM, запускает агента и автоматически оценивает его без ручной аннотации. Wilbur достигает передовых результатов на бенчмарке WebVoyager, превосходя модели только с текстом в целом на 8% и до 36% на определенных веб-сайтах. На том же бенчмарке Wilbur находится в пределах 5% от сильной мультимодальной модели, несмотря на то что получает только текстовые входы, и дальнейший анализ показывает, что значительное количество неудач связано с техническими проблемами при работе с веб-сайтами.
English
In the realm of web agent research, achieving both generalization and
accuracy remains a challenging problem. Due to high variance in website
structure, existing approaches often fail. Moreover, existing fine-tuning and
in-context learning techniques fail to generalize across multiple websites. We
introduce Wilbur, an approach that uses a differentiable ranking model and a
novel instruction synthesis technique to optimally populate a black-box large
language model's prompt with task demonstrations from previous runs. To
maximize end-to-end success rates, we also propose an intelligent backtracking
mechanism that learns and recovers from its mistakes. Finally, we show that our
ranking model can be trained on data from a generative auto-curriculum which
samples representative goals from an LLM, runs the agent, and automatically
evaluates it, with no manual annotation. Wilbur achieves state-of-the-art
results on the WebVoyager benchmark, beating text-only models by 8% overall,
and up to 36% on certain websites. On the same benchmark, Wilbur is within 5%
of a strong multi-modal model despite only receiving textual inputs, and
further analysis reveals a substantial number of failures are due to
engineering challenges of operating the web.Summary
AI-Generated Summary