WILBUR: Aprendizado Adaptativo em Contexto para Agentes Web Robustos e Precisos

Resumo

No domínio da pesquisa de agentes web, alcançar tanto generalização quanto precisão continua sendo um problema desafiador. Devido à alta variabilidade na estrutura dos sites, as abordagens existentes frequentemente falham. Além disso, as técnicas atuais de ajuste fino e aprendizado em contexto não conseguem generalizar em múltiplos sites. Apresentamos Wilbur, uma abordagem que utiliza um modelo de classificação diferenciável e uma nova técnica de síntese de instruções para preencher de forma ideal o prompt de um modelo de linguagem de grande escala (LLM) com demonstrações de tarefas de execuções anteriores. Para maximizar as taxas de sucesso de ponta a ponta, também propomos um mecanismo inteligente de retrocesso que aprende e se recupera de seus erros. Por fim, demonstramos que nosso modelo de classificação pode ser treinado com dados de um currículo automático gerativo, que amostra objetivos representativos de um LLM, executa o agente e o avalia automaticamente, sem anotação manual. Wilbur alcança resultados de ponta no benchmark WebVoyager, superando modelos baseados apenas em texto em 8% no geral e até 36% em determinados sites. No mesmo benchmark, Wilbur está a menos de 5% de um modelo multimodal forte, apesar de receber apenas entradas textuais, e uma análise mais aprofundada revela que um número significativo de falhas se deve a desafios de engenharia na operação da web.

English

In the realm of web agent research, achieving both generalization and accuracy remains a challenging problem. Due to high variance in website structure, existing approaches often fail. Moreover, existing fine-tuning and in-context learning techniques fail to generalize across multiple websites. We introduce Wilbur, an approach that uses a differentiable ranking model and a novel instruction synthesis technique to optimally populate a black-box large language model's prompt with task demonstrations from previous runs. To maximize end-to-end success rates, we also propose an intelligent backtracking mechanism that learns and recovers from its mistakes. Finally, we show that our ranking model can be trained on data from a generative auto-curriculum which samples representative goals from an LLM, runs the agent, and automatically evaluates it, with no manual annotation. Wilbur achieves state-of-the-art results on the WebVoyager benchmark, beating text-only models by 8% overall, and up to 36% on certain websites. On the same benchmark, Wilbur is within 5% of a strong multi-modal model despite only receiving textual inputs, and further analysis reveals a substantial number of failures are due to engineering challenges of operating the web.

WILBUR: Aprendizado Adaptativo em Contexto para Agentes Web Robustos e Precisos

WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents

Resumo

Support