УИЛБУР: Адаптивное контекстное обучение для надежных и точных веб-агентов

Аннотация

В области исследований веб-агентов достижение как обобщения, так и точности остается сложной задачей. Из-за высокой вариации в структуре веб-сайтов существующие подходы часто терпят неудачу. Более того, существующие техники настройки и контекстного обучения не способны обобщаться на несколько веб-сайтов. Мы представляем подход Wilbur, который использует дифференцируемую модель ранжирования и новую технику синтеза инструкций для оптимального заполнения запроса черного ящика большой языковой модели демонстрациями задач из предыдущих запусков. Для максимизации общих показателей успеха мы также предлагаем интеллектуальный механизм отката, который учится и исправляет свои ошибки. Наконец, мы показываем, что наша модель ранжирования может быть обучена на данных из генеративного авто-учебного плана, который выбирает представительные цели из LLM, запускает агента и автоматически оценивает его без ручной аннотации. Wilbur достигает передовых результатов на бенчмарке WebVoyager, превосходя модели только с текстом в целом на 8% и до 36% на определенных веб-сайтах. На том же бенчмарке Wilbur находится в пределах 5% от сильной мультимодальной модели, несмотря на то что получает только текстовые входы, и дальнейший анализ показывает, что значительное количество неудач связано с техническими проблемами при работе с веб-сайтами.

English

In the realm of web agent research, achieving both generalization and accuracy remains a challenging problem. Due to high variance in website structure, existing approaches often fail. Moreover, existing fine-tuning and in-context learning techniques fail to generalize across multiple websites. We introduce Wilbur, an approach that uses a differentiable ranking model and a novel instruction synthesis technique to optimally populate a black-box large language model's prompt with task demonstrations from previous runs. To maximize end-to-end success rates, we also propose an intelligent backtracking mechanism that learns and recovers from its mistakes. Finally, we show that our ranking model can be trained on data from a generative auto-curriculum which samples representative goals from an LLM, runs the agent, and automatically evaluates it, with no manual annotation. Wilbur achieves state-of-the-art results on the WebVoyager benchmark, beating text-only models by 8% overall, and up to 36% on certain websites. On the same benchmark, Wilbur is within 5% of a strong multi-modal model despite only receiving textual inputs, and further analysis reveals a substantial number of failures are due to engineering challenges of operating the web.

УИЛБУР: Адаптивное контекстное обучение для надежных и точных веб-агентов

WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents

Аннотация

Support