AutoCrawler: Ein fortschrittlicher Webagent zur progressiven Generierung von Webcrawlern
AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation
April 19, 2024
Autoren: Wenhao Huang, Chenghao Peng, Zhixu Li, Jiaqing Liang, Yanghua Xiao, Liqian Wen, Zulong Chen
cs.AI
Zusammenfassung
Die Webautomatisierung ist eine bedeutende Technik, die komplexe Webaufgaben durch die Automatisierung gängiger Webaktionen bewältigt, die operationale Effizienz steigert und den Bedarf für manuelle Eingriffe reduziert. Traditionelle Methoden wie Wrapper leiden unter begrenzter Anpassungsfähigkeit und Skalierbarkeit bei der Bewältigung einer neuen Website. Andererseits zeigen generative Agenten, die von großen Sprachmodellen (LLMs) unterstützt werden, eine geringe Leistung und Wiederverwendbarkeit in offenen Szenarien. In dieser Arbeit stellen wir eine Crawler-Generierungsaufgabe für vertikale Informationswebseiten vor und das Paradigma der Kombination von LLMs mit Crawlern, was den Crawlern hilft, diverse und sich ändernde Webumgebungen effizienter zu handhaben. Wir schlagen AutoCrawler vor, ein Zwei-Stufen-Framework, das die hierarchische Struktur von HTML für ein progressives Verständnis nutzt. Durch top-down und step-back Operationen kann AutoCrawler aus fehlerhaften Aktionen lernen und kontinuierlich HTML für eine bessere Aktionsgenerierung optimieren. Wir führen umfassende Experimente mit mehreren LLMs durch und zeigen die Wirksamkeit unseres Frameworks auf. Die Ressourcen zu dieser Arbeit sind unter https://github.com/EZ-hwh/AutoCrawler verfügbar.
English
Web automation is a significant technique that accomplishes complicated web
tasks by automating common web actions, enhancing operational efficiency, and
reducing the need for manual intervention. Traditional methods, such as
wrappers, suffer from limited adaptability and scalability when faced with a
new website. On the other hand, generative agents empowered by large language
models (LLMs) exhibit poor performance and reusability in open-world scenarios.
In this work, we introduce a crawler generation task for vertical information
web pages and the paradigm of combining LLMs with crawlers, which helps
crawlers handle diverse and changing web environments more efficiently. We
propose AutoCrawler, a two-stage framework that leverages the hierarchical
structure of HTML for progressive understanding. Through top-down and step-back
operations, AutoCrawler can learn from erroneous actions and continuously prune
HTML for better action generation. We conduct comprehensive experiments with
multiple LLMs and demonstrate the effectiveness of our framework. Resources of
this paper can be found at https://github.com/EZ-hwh/AutoCrawlerSummary
AI-Generated Summary