ChatPaper.aiChatPaper

WebVoyager: Entwicklung eines End-to-End-Web-Agenten mit großen multimodalen Modellen

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

January 25, 2024
Autoren: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu
cs.AI

Zusammenfassung

Der Fortschritt bei großen Sprachmodellen (LLMs) leitet eine neue Ära ein, die durch die Entwicklung autonomer Anwendungen in der realen Welt geprägt ist und Innovationen bei der Erstellung fortschrittlicher webbasierter Agenten vorantreibt. Bestehende Web-Agenten verarbeiten typischerweise nur eine Eingabemodalität und werden lediglich in vereinfachten Web-Simulatoren oder statischen Web-Snapshots evaluiert, was ihre Anwendbarkeit in realen Szenarien erheblich einschränkt. Um diese Lücke zu schließen, stellen wir WebVoyager vor, einen innovativen Web-Agenten, der auf einem großen multimodalen Modell (LMM) basiert und Benutzeranweisungen end-to-end durch die Interaktion mit realen Websites ausführen kann. Darüber hinaus schlagen wir ein neues Evaluierungsprotokoll für Web-Agenten vor, um die Herausforderungen der automatischen Bewertung von offenen Web-Agenten-Aufgaben zu bewältigen, wobei wir die robusten multimodalen Verständnisfähigkeiten von GPT-4V nutzen. Wir erstellen einen neuen Benchmark, indem wir reale Aufgaben von 15 weit verbreiteten Websites sammeln, um unsere Agenten zu evaluieren. Wir zeigen, dass WebVoyager eine Aufgaben-Erfolgsrate von 55,7 % erreicht und damit die Leistung sowohl von GPT-4 (All Tools) als auch von WebVoyager (nur Text) deutlich übertrifft, was die außergewöhnliche Fähigkeit von WebVoyager in praktischen Anwendungen unterstreicht. Wir stellten fest, dass unsere vorgeschlagene automatische Evaluierung eine Übereinstimmung von 85,3 % mit der menschlichen Beurteilung erreicht, was den Weg für die weitere Entwicklung von Web-Agenten in realen Umgebungen ebnet.
English
The advancement of large language models (LLMs) leads to a new era marked by the development of autonomous applications in the real world, which drives innovation in the creation of advanced web-based agents. Existing web agents typically only handle one input modality and are evaluated only in simplified web simulators or static web snapshots, greatly limiting their applicability in real-world scenarios. To bridge this gap, we introduce WebVoyager, an innovative Large Multimodal Model (LMM) powered web agent that can complete user instructions end-to-end by interacting with real-world websites. Moreover, we propose a new evaluation protocol for web agents to address the challenges of automatic evaluation of open-ended web agent tasks, leveraging the robust multimodal comprehension capabilities of GPT-4V. We create a new benchmark by gathering real-world tasks from 15 widely used websites to evaluate our agents. We show that WebVoyager achieves a 55.7% task success rate, significantly surpassing the performance of both GPT-4 (All Tools) and the WebVoyager (text-only) setups, underscoring the exceptional capability of WebVoyager in practical applications. We found that our proposed automatic evaluation achieves 85.3% agreement with human judgment, paving the way for further development of web agents in a real-world setting.
PDF324December 15, 2024