AutoCrawler: 웹 크롤러 생성을 위한 점진적 이해 기반 웹 에이전트AutoCrawler: A Progressive Understanding Web Agent for Web Crawler
Generation
웹 자동화는 일반적인 웹 작업을 자동화하여 복잡한 웹 작업을 수행하고, 운영 효율성을 높이며, 수동 개입의 필요성을 줄이는 중요한 기술입니다. 래퍼(wrapper)와 같은 전통적인 방법은 새로운 웹사이트를 접할 때 적응성과 확장성이 제한적이라는 단점이 있습니다. 반면, 대규모 언어 모델(LLM)로 강화된 생성 에이전트는 개방형 환경에서 성능과 재사용성이 떨어지는 문제를 보입니다. 본 연구에서는 수직 정보 웹 페이지를 위한 크롤러 생성 작업과 LLM과 크롤러를 결합한 패러다임을 소개하며, 이를 통해 크롤러가 다양하고 변화하는 웹 환경을 더 효율적으로 처리할 수 있도록 돕습니다. 우리는 HTML의 계층적 구조를 활용하여 점진적 이해를 가능하게 하는 2단계 프레임워크인 AutoCrawler를 제안합니다. AutoCrawler는 상향식(top-down) 및 단계적 후퇴(step-back) 작업을 통해 잘못된 동작에서 학습하고, 더 나은 동작 생성을 위해 HTML을 지속적으로 정제할 수 있습니다. 여러 LLM을 사용한 포괄적인 실험을 통해 우리 프레임워크의 효과를 입증하였습니다. 본 논문의 리소스는 https://github.com/EZ-hwh/AutoCrawler에서 확인할 수 있습니다.