AutoCrawler:一個用於網路爬蟲生成的漸進式理解網路代理程式AutoCrawler: A Progressive Understanding Web Agent for Web Crawler
Generation
網頁自動化是一項重要技術,通過自動執行常見的網頁操作,完成複雜的網頁任務,提高運營效率,減少手動干預的需求。傳統方法,如包裝器,在面對新網站時存在適應性和可擴展性有限的問題。另一方面,由大型語言模型(LLMs)賦能的生成式代理在開放世界情境中表現出性能和重用性不佳。在這項工作中,我們為垂直信息網頁引入了爬蟲生成任務,並提出了將LLMs與爬蟲相結合的範式,有助於爬蟲更有效地應對多樣化和變化多端的網頁環境。我們提出了AutoCrawler,一個利用HTML的階層結構進行漸進式理解的雙階段框架。通過自上而下和回溯操作,AutoCrawler能夠從錯誤的操作中學習,並持續修剪HTML以獲得更好的操作生成。我們通過多個LLMs進行了全面的實驗,展示了我們框架的有效性。本文資源可在https://github.com/EZ-hwh/AutoCrawler 找到。