AutoCrawler: Webクローラー生成のための漸進的理解型WebエージェントAutoCrawler: A Progressive Understanding Web Agent for Web Crawler
Generation
ウェブ自動化は、一般的なウェブ操作を自動化することで複雑なウェブタスクを達成し、業務効率を向上させ、手動介入の必要性を低減する重要な技術です。従来の方法、例えばラッパーは、新しいウェブサイトに直面した際に適応性と拡張性が限られるという課題を抱えています。一方、大規模言語モデル(LLM)を活用した生成エージェントは、オープンワールドシナリオにおいて性能と再利用性が低いという問題があります。本研究では、垂直情報ウェブページ向けのクローラー生成タスクと、LLMとクローラーを組み合わせるパラダイムを提案し、クローラーが多様で変化するウェブ環境をより効率的に処理することを支援します。我々は、HTMLの階層構造を活用して段階的な理解を進める二段階フレームワークであるAutoCrawlerを提案します。トップダウンおよびステップバック操作を通じて、AutoCrawlerは誤った操作から学習し、HTMLを継続的に刈り込むことでより良い操作生成を実現します。複数のLLMを用いた包括的な実験を行い、本フレームワークの有効性を実証しました。本論文のリソースはhttps://github.com/EZ-hwh/AutoCrawlerで公開されています。