AutoCrawler: Un Agente Web de Comprensión Progresiva para la Generación de Rastreadores WebAutoCrawler: A Progressive Understanding Web Agent for Web Crawler
Generation
La automatización web es una técnica importante que realiza tareas web complejas mediante la automatización de acciones web comunes, mejorando la eficiencia operativa y reduciendo la necesidad de intervención manual. Los métodos tradicionales, como los wrappers, presentan limitaciones en adaptabilidad y escalabilidad cuando se enfrentan a un nuevo sitio web. Por otro lado, los agentes generativos potenciados por modelos de lenguaje grandes (LLMs) muestran un rendimiento y reutilización deficientes en escenarios de mundo abierto. En este trabajo, introducimos una tarea de generación de rastreadores para páginas web de información vertical y el paradigma de combinar LLMs con rastreadores, lo que ayuda a los rastreadores a manejar entornos web diversos y cambiantes de manera más eficiente. Proponemos AutoCrawler, un marco de dos etapas que aprovecha la estructura jerárquica del HTML para una comprensión progresiva. A través de operaciones de arriba hacia abajo y de retroceso, AutoCrawler puede aprender de acciones erróneas y podar continuamente el HTML para una mejor generación de acciones. Realizamos experimentos exhaustivos con múltiples LLMs y demostramos la efectividad de nuestro marco. Los recursos de este artículo se pueden encontrar en https://github.com/EZ-hwh/AutoCrawler.