WebLINX: Echtzeit-Website-Navigation mit mehrschrittigen Dialogen

papers.abstract

Wir schlagen das Problem der konversationellen Webnavigation vor, bei dem ein digitaler Agent einen Webbrowser steuert und Benutzeranweisungen folgt, um reale Aufgaben in einem mehrschrittigen Dialog zu lösen. Um dieses Problem zu unterstützen, führen wir WEBLINX ein – einen umfangreichen Benchmark mit 100.000 Interaktionen aus 2300 Experten-Demonstrationen der konversationellen Webnavigation. Unser Benchmark deckt eine breite Palette von Mustern auf über 150 realen Websites ab und kann verwendet werden, um Agenten in verschiedenen Szenarien zu trainieren und zu bewerten. Aufgrund der Fülle an Informationen können Large Language Models (LLMs) ganze Webseiten nicht in Echtzeit verarbeiten. Um diesen Engpass zu lösen, entwerfen wir ein Modell, das von der Informationsrückgewinnung inspiriert ist und HTML-Seiten effizient durch die Bewertung relevanter Elemente reduziert. Wir verwenden die ausgewählten Elemente zusammen mit Screenshots und Aktionsverläufen, um eine Vielzahl von Modellen hinsichtlich ihrer Fähigkeit zu bewerten, menschliches Verhalten bei der Webnavigation nachzuahmen. Unsere Experimente reichen von kleinen textbasierten bis hin zu proprietären multimodalen LLMs. Wir stellen fest, dass kleinere, feinabgestimmte Decoder die besten Zero-Shot-LLMs (einschließlich GPT-4V) übertreffen, aber auch größere, feinabgestimmte multimodale Modelle, die explizit auf Screenshots vortrainiert wurden. Allerdings haben alle feinabgestimmten Modelle Schwierigkeiten, sich auf unbekannte Websites zu verallgemeinern. Unsere Ergebnisse unterstreichen die Notwendigkeit großer multimodaler Modelle, die sich auf neue Umgebungen verallgemeinern können. Unser Code, Daten und Modelle sind für die Forschung verfügbar: https://mcgill-nlp.github.io/weblinx

English

We propose the problem of conversational web navigation, where a digital agent controls a web browser and follows user instructions to solve real-world tasks in a multi-turn dialogue fashion. To support this problem, we introduce WEBLINX - a large-scale benchmark of 100K interactions across 2300 expert demonstrations of conversational web navigation. Our benchmark covers a broad range of patterns on over 150 real-world websites and can be used to train and evaluate agents in diverse scenarios. Due to the magnitude of information present, Large Language Models (LLMs) cannot process entire web pages in real-time. To solve this bottleneck, we design a retrieval-inspired model that efficiently prunes HTML pages by ranking relevant elements. We use the selected elements, along with screenshots and action history, to assess a variety of models for their ability to replicate human behavior when navigating the web. Our experiments span from small text-only to proprietary multimodal LLMs. We find that smaller finetuned decoders surpass the best zero-shot LLMs (including GPT-4V), but also larger finetuned multimodal models which were explicitly pretrained on screenshots. However, all finetuned models struggle to generalize to unseen websites. Our findings highlight the need for large multimodal models that can generalize to novel settings. Our code, data and models are available for research: https://mcgill-nlp.github.io/weblinx

WebLINX: Echtzeit-Website-Navigation mit mehrschrittigen Dialogen

WebLINX: Real-World Website Navigation with Multi-Turn Dialogue

papers.abstract

Support