WILBUR: Aprendizado Adaptativo em Contexto para Agentes Web Robustos e Precisos
WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents
April 8, 2024
Autores: Michael Lutz, Arth Bohra, Manvel Saroyan, Artem Harutyunyan, Giovanni Campagna
cs.AI
Resumo
No domínio da pesquisa de agentes web, alcançar tanto generalização quanto precisão continua sendo um problema desafiador. Devido à alta variabilidade na estrutura dos sites, as abordagens existentes frequentemente falham. Além disso, as técnicas atuais de ajuste fino e aprendizado em contexto não conseguem generalizar em múltiplos sites. Apresentamos Wilbur, uma abordagem que utiliza um modelo de classificação diferenciável e uma nova técnica de síntese de instruções para preencher de forma ideal o prompt de um modelo de linguagem de grande escala (LLM) com demonstrações de tarefas de execuções anteriores. Para maximizar as taxas de sucesso de ponta a ponta, também propomos um mecanismo inteligente de retrocesso que aprende e se recupera de seus erros. Por fim, demonstramos que nosso modelo de classificação pode ser treinado com dados de um currículo automático gerativo, que amostra objetivos representativos de um LLM, executa o agente e o avalia automaticamente, sem anotação manual. Wilbur alcança resultados de ponta no benchmark WebVoyager, superando modelos baseados apenas em texto em 8% no geral e até 36% em determinados sites. No mesmo benchmark, Wilbur está a menos de 5% de um modelo multimodal forte, apesar de receber apenas entradas textuais, e uma análise mais aprofundada revela que um número significativo de falhas se deve a desafios de engenharia na operação da web.
English
In the realm of web agent research, achieving both generalization and
accuracy remains a challenging problem. Due to high variance in website
structure, existing approaches often fail. Moreover, existing fine-tuning and
in-context learning techniques fail to generalize across multiple websites. We
introduce Wilbur, an approach that uses a differentiable ranking model and a
novel instruction synthesis technique to optimally populate a black-box large
language model's prompt with task demonstrations from previous runs. To
maximize end-to-end success rates, we also propose an intelligent backtracking
mechanism that learns and recovers from its mistakes. Finally, we show that our
ranking model can be trained on data from a generative auto-curriculum which
samples representative goals from an LLM, runs the agent, and automatically
evaluates it, with no manual annotation. Wilbur achieves state-of-the-art
results on the WebVoyager benchmark, beating text-only models by 8% overall,
and up to 36% on certain websites. On the same benchmark, Wilbur is within 5%
of a strong multi-modal model despite only receiving textual inputs, and
further analysis reveals a substantial number of failures are due to
engineering challenges of operating the web.