ChatPaper.aiChatPaper

WebWalker: Сравнение производительности языковых моделей с использованием веб-обхода

WebWalker: Benchmarking LLMs in Web Traversal

January 13, 2025
Авторы: Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang
cs.AI

Аннотация

Поиск с увеличением генерации (RAG) продемонстрировал выдающуюся производительность по всем задачам в открытом домене вопросно-ответной системы. Однако традиционные поисковые системы могут извлекать поверхностный контент, что ограничивает способность LLM обрабатывать сложную, многоуровневую информацию. Для решения этой проблемы мы представляем WebWalkerQA, бенчмарк, разработанный для оценки способности LLM выполнять обход веб-страниц. Он оценивает способность LLM просматривать подстраницы веб-сайта для систематического извлечения высококачественных данных. Мы предлагаем WebWalker, который является многоагентной структурой, имитирующей человекоподобную навигацию по веб-сайту через парадигму исследователь-критик. Обширные экспериментальные результаты показывают, что WebWalkerQA представляет собой сложное испытание и демонстрирует эффективность RAG в сочетании с WebWalker, через горизонтальную и вертикальную интеграцию в реальных сценариях.
English
Retrieval-augmented generation (RAG) demonstrates remarkable performance across tasks in open-domain question-answering. However, traditional search engines may retrieve shallow content, limiting the ability of LLMs to handle complex, multi-layered information. To address it, we introduce WebWalkerQA, a benchmark designed to assess the ability of LLMs to perform web traversal. It evaluates the capacity of LLMs to traverse a website's subpages to extract high-quality data systematically. We propose WebWalker, which is a multi-agent framework that mimics human-like web navigation through an explore-critic paradigm. Extensive experimental results show that WebWalkerQA is challenging and demonstrates the effectiveness of RAG combined with WebWalker, through the horizontal and vertical integration in real-world scenarios.

Summary

AI-Generated Summary

PDF193January 14, 2025