ChatPaper.aiChatPaper

AutoCrawler: Ein fortschrittlicher Webagent zur progressiven Generierung von Webcrawlern

AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

April 19, 2024
Autoren: Wenhao Huang, Chenghao Peng, Zhixu Li, Jiaqing Liang, Yanghua Xiao, Liqian Wen, Zulong Chen
cs.AI

Zusammenfassung

Die Webautomatisierung ist eine bedeutende Technik, die komplexe Webaufgaben durch die Automatisierung gängiger Webaktionen bewältigt, die operationale Effizienz steigert und den Bedarf für manuelle Eingriffe reduziert. Traditionelle Methoden wie Wrapper leiden unter begrenzter Anpassungsfähigkeit und Skalierbarkeit bei der Bewältigung einer neuen Website. Andererseits zeigen generative Agenten, die von großen Sprachmodellen (LLMs) unterstützt werden, eine geringe Leistung und Wiederverwendbarkeit in offenen Szenarien. In dieser Arbeit stellen wir eine Crawler-Generierungsaufgabe für vertikale Informationswebseiten vor und das Paradigma der Kombination von LLMs mit Crawlern, was den Crawlern hilft, diverse und sich ändernde Webumgebungen effizienter zu handhaben. Wir schlagen AutoCrawler vor, ein Zwei-Stufen-Framework, das die hierarchische Struktur von HTML für ein progressives Verständnis nutzt. Durch top-down und step-back Operationen kann AutoCrawler aus fehlerhaften Aktionen lernen und kontinuierlich HTML für eine bessere Aktionsgenerierung optimieren. Wir führen umfassende Experimente mit mehreren LLMs durch und zeigen die Wirksamkeit unseres Frameworks auf. Die Ressourcen zu dieser Arbeit sind unter https://github.com/EZ-hwh/AutoCrawler verfügbar.
English
Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at https://github.com/EZ-hwh/AutoCrawler

Summary

AI-Generated Summary

PDF441December 15, 2024