Web2BigTable: Een Bi-Level Multi-Agent LLM-systeem voor Internet-schaal Informatiezoektocht en -extractie

Samenvatting

Agentisch webzoeken wordt steeds vaker geconfronteerd met twee verschillende eisen: diep redeneren over een enkel doel, en gestructureerde aggregatie over vele entiteiten en heterogene bronnen. Huidige systemen worstelen op beide fronten. Breedte-gerichte taken vereisen schema-uitgelijnde outputs met brede dekking en consistentie tussen entiteiten, terwijl diepte-gerichte taken coherent redeneren vereisen over lange, vertakkende zoektrajecten. Wij introduceren Web2BigTable, een multi-agent framework voor web-naar-tabel zoeken dat beide regimes ondersteunt. Web2BigTable hanteert een bi-level architectuur waarin een orchestrator op hoog niveau de taak decomposeert in subproblemen en werker-agents op laag niveau deze parallel oplossen. Via een gesloten lus van uitvoeren-verifiëren-reflecteren verbetert het framework gezamenlijk de decompositie en uitvoering in de tijd via een persistente, mensleesbare extern geheugen, met zelf-evoluerende updates voor elke individuele agent. Tijdens de uitvoering coördineren werkers via een gedeelde werkruimte die deelresultaten zichtbaar maakt, waardoor ze redundante verkenning kunnen verminderen, tegenstrijdige bevindingen kunnen verzoenen en zich kunnen aanpassen aan opkomende dekkingshiaten. Web2BigTable vestigt een nieuwe state-of-the-art op WideSearch, met een Avg@4 Success Rate van 38.50 (7.5 keer de tweede beste met 5.10), Row F1 van 63.53 (+25.03 boven de tweede beste) en Item F1 van 80.12 (+14.42 boven de tweede beste). Het generaliseert ook naar diepte-gericht zoeken op XBench-DeepSearch, met een nauwkeurigheid van 73.0. Code is beschikbaar op https://github.com/web2bigtable/web2bigtable.

English

Agentic web search increasingly faces two distinct demands: deep reasoning over a single target, and structured aggregation across many entities and heterogeneous sources. Current systems struggle on both fronts. Breadth-oriented tasks demand schema-aligned outputs with wide coverage and cross-entity consistency, while depth-oriented tasks require coherent reasoning over long, branching search trajectories. We introduce Web2BigTable, a multi-agent framework for web-to-table search that supports both regimes. Web2BigTable adopts a bi-level architecture in which an upper-level orchestrator decomposes the task into sub-problems and lower-level worker agents solve them in parallel. Through a closed-loop run--verify--reflect process, the framework jointly improves decomposition and execution over time via persistent, human-readable external memory, with self-evolving updates to each single-agent. During execution, workers coordinate through a shared workspace that makes partial findings visible, allowing them to reduce redundant exploration, reconcile conflicting evidence, and adapt to emerging coverage gaps. Web2BigTable sets a new state of the art on WideSearch, reaching an Avg@4 Success Rate of 38.50 (7.5times the second best at 5.10), Row F1 of 63.53 (+25.03 over the second best), and Item F1 of 80.12 (+14.42 over the second best). It also generalises to depth-oriented search on XBench-DeepSearch, achieving 73.0 accuracy. Code is available at https://github.com/web2bigtable/web2bigtable.

Web2BigTable: Een Bi-Level Multi-Agent LLM-systeem voor Internet-schaal Informatiezoektocht en -extractie

Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction

Samenvatting

Support