AutoCrawler: Прогрессивный агент для понимания веб-ресурсов для генерации веб-сканераAutoCrawler: A Progressive Understanding Web Agent for Web Crawler
Generation
Веб-автоматизация является значительной техникой, которая выполняет сложные веб-задачи путем автоматизации обычных веб-действий, повышая операционную эффективность и уменьшая необходимость в ручном вмешательстве. Традиционные методы, такие как обертки, страдают от ограниченной адаптивности и масштабируемости при столкновении с новым веб-сайтом. С другой стороны, генеративные агенты, усиленные большими языковыми моделями (LLM), проявляют плохую производительность и повторное использование в сценариях открытого мира. В данной работе мы представляем задачу генерации веб-сканера для вертикальных информационных веб-страниц и парадигму комбинирования LLM с веб-сканерами, что помогает сканерам более эффективно обрабатывать разнообразные и изменяющиеся веб-среды. Мы предлагаем AutoCrawler, двухэтапную структуру, которая использует иерархическую структуру HTML для пошагового понимания. Через операции сверху вниз и шаги назад AutoCrawler может учиться на ошибках и непрерывно обрезать HTML для лучшей генерации действий. Мы проводим комплексные эксперименты с несколькими LLM и демонстрируем эффективность нашей структуры. Ресурсы этой статьи можно найти по адресу https://github.com/EZ-hwh/AutoCrawler.