Web2BigTable: Двухуровневая мультиагентная LLM-система для поиска и извлечения информации в интернет-масштабе

Аннотация

Поиск в интернете с использованием агентов все чаще сталкивается с двумя различными требованиями: глубоким анализом единой цели и структурированной агрегацией данных по множеству сущностей из разнородных источников. Современные системы испытывают трудности в обоих направлениях. Задачи, ориентированные на широту охвата, требуют вывода данных, согласованных со схемой, с широким покрытием и кросс-сущностной согласованностью, в то время как задачи, ориентированные на глубину, требуют последовательных рассуждений на протяжении длинных, разветвленных траекторий поиска. Мы представляем Web2BigTable — мульти-агентный фреймворк для веб-поиска с преобразованием в таблицы, который поддерживает оба режима. Web2BigTable использует двухуровневую архитектуру, в которой orchestrator верхнего уровня декомпозирует задачу на подзадачи, а рабочие агенты нижнего уровня решают их параллельно. Благодаря замкнутому процессу «выполнение–верификация–анализ» фреймворк совместно улучшает декомпозицию и выполнение с течением времени за счет постоянной, удобочитаемой внешней памяти с самоэволюционирующими обновлениями для каждого отдельного агента. Во время выполнения рабочие агенты координируются через общее рабочее пространство, которое делает частичные результаты видимыми, позволяя им сокращать избыточное исследование, согласовывать противоречивые данные и адаптироваться к возникающим пробелам в покрытии. Web2BigTable устанавливает новое состояние искусства на benchmark WideSearch, достигая Avg@4 Success Rate 38.50 (в 7.5 раз выше второго результата в 5.10), Row F1 63.53 (+25.03 по сравнению со вторым лучшим результатом) и Item F1 80.12 (+14.42 по сравнению со вторым лучшим результатом). Он также демонстрирует обобщаемость для глубинного поиска на XBench-DeepSearch, достигая точности 73.0. Код доступен по адресу https://github.com/web2bigtable/web2bigtable.

English

Agentic web search increasingly faces two distinct demands: deep reasoning over a single target, and structured aggregation across many entities and heterogeneous sources. Current systems struggle on both fronts. Breadth-oriented tasks demand schema-aligned outputs with wide coverage and cross-entity consistency, while depth-oriented tasks require coherent reasoning over long, branching search trajectories. We introduce Web2BigTable, a multi-agent framework for web-to-table search that supports both regimes. Web2BigTable adopts a bi-level architecture in which an upper-level orchestrator decomposes the task into sub-problems and lower-level worker agents solve them in parallel. Through a closed-loop run--verify--reflect process, the framework jointly improves decomposition and execution over time via persistent, human-readable external memory, with self-evolving updates to each single-agent. During execution, workers coordinate through a shared workspace that makes partial findings visible, allowing them to reduce redundant exploration, reconcile conflicting evidence, and adapt to emerging coverage gaps. Web2BigTable sets a new state of the art on WideSearch, reaching an Avg@4 Success Rate of 38.50 (7.5times the second best at 5.10), Row F1 of 63.53 (+25.03 over the second best), and Item F1 of 80.12 (+14.42 over the second best). It also generalises to depth-oriented search on XBench-DeepSearch, achieving 73.0 accuracy. Code is available at https://github.com/web2bigtable/web2bigtable.

Web2BigTable: Двухуровневая мультиагентная LLM-система для поиска и извлечения информации в интернет-масштабе

Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction

Аннотация

Support