Rumo ao Treinamento em Escala da Internet Para Agentes

Resumo

A abordagem predominante para treinar agentes de navegação na web reúne demonstrações humanas para um conjunto de sites populares e tarefas escritas manualmente, mas está ficando claro que os dados humanos são um recurso ineficiente. Desenvolvemos um pipeline para facilitar o treinamento em escala da Internet para agentes sem anotações humanas trabalhosas. Na primeira etapa, um LLM gera tarefas para 150 mil sites diversos. Na próxima etapa, agentes LLM completam as tarefas e produzem trajetórias. Na etapa final, um LLM revisa as trajetórias e avalia seu sucesso. Modelos de linguagem são competitivos com anotadores humanos, detectando e filtrando conteúdo prejudicial com uma precisão de 97%, gerando tarefas viáveis com uma taxa de 89% e avaliando trajetórias bem-sucedidas com uma precisão de 82,6%. Escalando o pipeline, agentes baseados em Llama 3.1 70B resolvem 16,7% das tarefas para 150 mil sites. O treinamento nos dados gerados por nosso pipeline é competitivo com o treinamento em demonstrações humanas. Em configurações limitadas de dados derivadas do Mind2Web e WebLINX, melhoramos a Precisão do Passo em até +89,5% e +122,1%, respectivamente, para agentes treinados em misturas de dados de nosso pipeline e dados humanos. Ao treinar agentes com todos os dados humanos disponíveis dessas referências, os agentes falham em generalizar para diversos sites reais, e adicionar nossos dados melhora sua generalização em +149,0% para WebLINX e +156,3% para Mind2Web. O código estará disponível em: data-for-agents.github.io.

English

The predominant approach for training web navigation agents gathers human demonstrations for a set of popular websites and hand-written tasks, but it is becoming clear that human data are an inefficient resource. We develop a pipeline to facilitate Internet-scale training for agents without laborious human annotations. In the first stage, an LLM generates tasks for 150k diverse websites. In the next stage, LLM agents complete tasks and produce trajectories. In the final stage, an LLM reviews the trajectories and judges their success. Language models are competitive with human annotators, detecting and filtering out harmful content with an accuracy of 97%, generating feasible tasks with an 89% rate, and judging successful trajectories with an 82.6% accuracy. Scaling the pipeline, agents based on Llama 3.1 70B solve 16.7% of tasks for 150k sites. Training on the data generated by our pipeline is competitive with training on human demonstrations. In data-limited settings derived from Mind2Web and WebLINX, we improve Step Accuracy by up to +89.5% and +122.1% respectively for agents trained on mixtures of data from our pipeline, and human data. When training agents with all available human data from these benchmarks, agents fail to generalize to diverse real sites, and adding our data improves their generalization by +149.0% for WebLINX and +156.3% for Mind2Web. Code will be available at: data-for-agents.github.io.

Rumo ao Treinamento em Escala da Internet Para Agentes

Towards Internet-Scale Training For Agents

Resumo

Support