AutoCrawler: Ein fortschrittlicher Webagent zur progressiven Generierung von WebcrawlernAutoCrawler: A Progressive Understanding Web Agent for Web Crawler
Generation
Die Webautomatisierung ist eine bedeutende Technik, die komplexe Webaufgaben durch die Automatisierung gängiger Webaktionen bewältigt, die operationale Effizienz steigert und den Bedarf für manuelle Eingriffe reduziert. Traditionelle Methoden wie Wrapper leiden unter begrenzter Anpassungsfähigkeit und Skalierbarkeit bei der Bewältigung einer neuen Website. Andererseits zeigen generative Agenten, die von großen Sprachmodellen (LLMs) unterstützt werden, eine geringe Leistung und Wiederverwendbarkeit in offenen Szenarien. In dieser Arbeit stellen wir eine Crawler-Generierungsaufgabe für vertikale Informationswebseiten vor und das Paradigma der Kombination von LLMs mit Crawlern, was den Crawlern hilft, diverse und sich ändernde Webumgebungen effizienter zu handhaben. Wir schlagen AutoCrawler vor, ein Zwei-Stufen-Framework, das die hierarchische Struktur von HTML für ein progressives Verständnis nutzt. Durch top-down und step-back Operationen kann AutoCrawler aus fehlerhaften Aktionen lernen und kontinuierlich HTML für eine bessere Aktionsgenerierung optimieren. Wir führen umfassende Experimente mit mehreren LLMs durch und zeigen die Wirksamkeit unseres Frameworks auf. Die Ressourcen zu dieser Arbeit sind unter https://github.com/EZ-hwh/AutoCrawler verfügbar.