WILBUR: Apprendimento Adattivo in Contesto per Agenti Web Robusti e Precisi

Abstract

Nel campo della ricerca sugli agenti web, raggiungere sia la generalizzazione che l'accuratezza rimane un problema complesso. A causa dell'elevata variabilità nella struttura dei siti web, gli approcci esistenti spesso falliscono. Inoltre, le tecniche di fine-tuning e apprendimento in contesto attuali non riescono a generalizzare su più siti web. Introduciamo Wilbur, un approccio che utilizza un modello di ranking differenziabile e una nuova tecnica di sintesi delle istruzioni per popolare in modo ottimale il prompt di un modello linguistico di grandi dimensioni (LLM) con dimostrazioni di task provenienti da esecuzioni precedenti. Per massimizzare i tassi di successo end-to-end, proponiamo anche un meccanismo di backtracking intelligente che impara e si riprende dai propri errori. Infine, dimostriamo che il nostro modello di ranking può essere addestrato su dati provenienti da un auto-curriculum generativo che campiona obiettivi rappresentativi da un LLM, esegue l'agente e lo valuta automaticamente, senza annotazioni manuali. Wilbur ottiene risultati all'avanguardia sul benchmark WebVoyager, superando i modelli basati solo su testo dell'8% in generale, e fino al 36% su determinati siti web. Nello stesso benchmark, Wilbur si avvicina entro il 5% a un forte modello multimodale nonostante riceva solo input testuali, e un'analisi più approfondita rivela che un numero significativo di fallimenti è dovuto a sfide ingegneristiche legate all'operatività sul web.

English

In the realm of web agent research, achieving both generalization and accuracy remains a challenging problem. Due to high variance in website structure, existing approaches often fail. Moreover, existing fine-tuning and in-context learning techniques fail to generalize across multiple websites. We introduce Wilbur, an approach that uses a differentiable ranking model and a novel instruction synthesis technique to optimally populate a black-box large language model's prompt with task demonstrations from previous runs. To maximize end-to-end success rates, we also propose an intelligent backtracking mechanism that learns and recovers from its mistakes. Finally, we show that our ranking model can be trained on data from a generative auto-curriculum which samples representative goals from an LLM, runs the agent, and automatically evaluates it, with no manual annotation. Wilbur achieves state-of-the-art results on the WebVoyager benchmark, beating text-only models by 8% overall, and up to 36% on certain websites. On the same benchmark, Wilbur is within 5% of a strong multi-modal model despite only receiving textual inputs, and further analysis reveals a substantial number of failures are due to engineering challenges of operating the web.

WILBUR: Apprendimento Adattivo in Contesto per Agenti Web Robusti e Precisi

WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents

Abstract

Support