ChatPaper.aiChatPaper

AutoCrawler: 웹 크롤러 생성을 위한 점진적 이해 기반 웹 에이전트

AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

April 19, 2024
저자: Wenhao Huang, Chenghao Peng, Zhixu Li, Jiaqing Liang, Yanghua Xiao, Liqian Wen, Zulong Chen
cs.AI

초록

웹 자동화는 일반적인 웹 작업을 자동화하여 복잡한 웹 작업을 수행하고, 운영 효율성을 높이며, 수동 개입의 필요성을 줄이는 중요한 기술입니다. 래퍼(wrapper)와 같은 전통적인 방법은 새로운 웹사이트를 접할 때 적응성과 확장성이 제한적이라는 단점이 있습니다. 반면, 대규모 언어 모델(LLM)로 강화된 생성 에이전트는 개방형 환경에서 성능과 재사용성이 떨어지는 문제를 보입니다. 본 연구에서는 수직 정보 웹 페이지를 위한 크롤러 생성 작업과 LLM과 크롤러를 결합한 패러다임을 소개하며, 이를 통해 크롤러가 다양하고 변화하는 웹 환경을 더 효율적으로 처리할 수 있도록 돕습니다. 우리는 HTML의 계층적 구조를 활용하여 점진적 이해를 가능하게 하는 2단계 프레임워크인 AutoCrawler를 제안합니다. AutoCrawler는 상향식(top-down) 및 단계적 후퇴(step-back) 작업을 통해 잘못된 동작에서 학습하고, 더 나은 동작 생성을 위해 HTML을 지속적으로 정제할 수 있습니다. 여러 LLM을 사용한 포괄적인 실험을 통해 우리 프레임워크의 효과를 입증하였습니다. 본 논문의 리소스는 https://github.com/EZ-hwh/AutoCrawler에서 확인할 수 있습니다.
English
Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at https://github.com/EZ-hwh/AutoCrawler

Summary

AI-Generated Summary

PDF441December 15, 2024