WebLINX: Echtzeit-Website-Navigation mit mehrschrittigen Dialogen
WebLINX: Real-World Website Navigation with Multi-Turn Dialogue
February 8, 2024
Autoren: Xing Han Lù, Zdeněk Kasner, Siva Reddy
cs.AI
Zusammenfassung
Wir schlagen das Problem der konversationellen Webnavigation vor, bei dem ein digitaler Agent einen Webbrowser steuert und Benutzeranweisungen folgt, um reale Aufgaben in einem mehrschrittigen Dialog zu lösen. Um dieses Problem zu unterstützen, führen wir WEBLINX ein – einen umfangreichen Benchmark mit 100.000 Interaktionen aus 2300 Experten-Demonstrationen der konversationellen Webnavigation. Unser Benchmark deckt eine breite Palette von Mustern auf über 150 realen Websites ab und kann verwendet werden, um Agenten in verschiedenen Szenarien zu trainieren und zu bewerten. Aufgrund der Fülle an Informationen können Large Language Models (LLMs) ganze Webseiten nicht in Echtzeit verarbeiten. Um diesen Engpass zu lösen, entwerfen wir ein Modell, das von der Informationsrückgewinnung inspiriert ist und HTML-Seiten effizient durch die Bewertung relevanter Elemente reduziert. Wir verwenden die ausgewählten Elemente zusammen mit Screenshots und Aktionsverläufen, um eine Vielzahl von Modellen hinsichtlich ihrer Fähigkeit zu bewerten, menschliches Verhalten bei der Webnavigation nachzuahmen. Unsere Experimente reichen von kleinen textbasierten bis hin zu proprietären multimodalen LLMs. Wir stellen fest, dass kleinere, feinabgestimmte Decoder die besten Zero-Shot-LLMs (einschließlich GPT-4V) übertreffen, aber auch größere, feinabgestimmte multimodale Modelle, die explizit auf Screenshots vortrainiert wurden. Allerdings haben alle feinabgestimmten Modelle Schwierigkeiten, sich auf unbekannte Websites zu verallgemeinern. Unsere Ergebnisse unterstreichen die Notwendigkeit großer multimodaler Modelle, die sich auf neue Umgebungen verallgemeinern können. Unser Code, Daten und Modelle sind für die Forschung verfügbar: https://mcgill-nlp.github.io/weblinx
English
We propose the problem of conversational web navigation, where a digital
agent controls a web browser and follows user instructions to solve real-world
tasks in a multi-turn dialogue fashion. To support this problem, we introduce
WEBLINX - a large-scale benchmark of 100K interactions across 2300 expert
demonstrations of conversational web navigation. Our benchmark covers a broad
range of patterns on over 150 real-world websites and can be used to train and
evaluate agents in diverse scenarios. Due to the magnitude of information
present, Large Language Models (LLMs) cannot process entire web pages in
real-time. To solve this bottleneck, we design a retrieval-inspired model that
efficiently prunes HTML pages by ranking relevant elements. We use the selected
elements, along with screenshots and action history, to assess a variety of
models for their ability to replicate human behavior when navigating the web.
Our experiments span from small text-only to proprietary multimodal LLMs. We
find that smaller finetuned decoders surpass the best zero-shot LLMs (including
GPT-4V), but also larger finetuned multimodal models which were explicitly
pretrained on screenshots. However, all finetuned models struggle to generalize
to unseen websites. Our findings highlight the need for large multimodal models
that can generalize to novel settings. Our code, data and models are available
for research: https://mcgill-nlp.github.io/weblinx