Web2BigTable : Un système bi-niveau à agents multiples basé sur LLM pour la recherche et l'extraction d'informations à l'échelle du web

Résumé

La recherche web agentique est confrontée à deux exigences distinctes : le raisonnement approfondi sur une cible unique et l'agrégation structurée à travers de nombreuses entités et sources hétérogènes. Les systèmes actuels peinent sur ces deux fronts. Les tâches orientées largeur exigent des résultats alignés sur un schéma avec une large couverture et une cohérence inter-entités, tandis que les tâches orientées profondeur nécessitent un raisonnement cohérent sur de longues trajectoires de recherche ramifiées. Nous présentons Web2BigTable, un cadre multi-agent pour la recherche web-vers-tableau qui prend en charge ces deux régimes. Web2BigTable adopte une architecture à deux niveaux dans laquelle un orchestrateur de niveau supérieur décompose la tâche en sous-problèmes et des agents travailleurs de niveau inférieur les résolvent en parallèle. Grâce à un processus en boucle fermée exécuter-vérifier-réfléchir, le cadre améliore conjointement la décomposition et l'exécution au fil du temps via une mémoire externe persistante et lisible par l'homme, avec des mises à jour auto-évolutives pour chaque agent unique. Pendant l'exécution, les travailleurs se coordonnent via un espace de travail partagé qui rend les résultats partiels visibles, leur permettant de réduire l'exploration redondante, de concilier les preuves conflictuelles et de s'adapter aux lacunes de couverture émergentes. Web2BigTable établit un nouvel état de l'art sur WideSearch, atteignant un taux de réussite Avg@4 de 38,50 (7,5 fois le deuxième meilleur à 5,10), un F1 par ligne de 63,53 (+25,03 par rapport au deuxième meilleur) et un F1 par élément de 80,12 (+14,42 par rapport au deuxième meilleur). Il se généralise également à la recherche orientée profondeur sur XBench-DeepSearch, atteignant une précision de 73,0. Le code est disponible à l'adresse https://github.com/web2bigtable/web2bigtable.

English

Agentic web search increasingly faces two distinct demands: deep reasoning over a single target, and structured aggregation across many entities and heterogeneous sources. Current systems struggle on both fronts. Breadth-oriented tasks demand schema-aligned outputs with wide coverage and cross-entity consistency, while depth-oriented tasks require coherent reasoning over long, branching search trajectories. We introduce Web2BigTable, a multi-agent framework for web-to-table search that supports both regimes. Web2BigTable adopts a bi-level architecture in which an upper-level orchestrator decomposes the task into sub-problems and lower-level worker agents solve them in parallel. Through a closed-loop run--verify--reflect process, the framework jointly improves decomposition and execution over time via persistent, human-readable external memory, with self-evolving updates to each single-agent. During execution, workers coordinate through a shared workspace that makes partial findings visible, allowing them to reduce redundant exploration, reconcile conflicting evidence, and adapt to emerging coverage gaps. Web2BigTable sets a new state of the art on WideSearch, reaching an Avg@4 Success Rate of 38.50 (7.5times the second best at 5.10), Row F1 of 63.53 (+25.03 over the second best), and Item F1 of 80.12 (+14.42 over the second best). It also generalises to depth-oriented search on XBench-DeepSearch, achieving 73.0 accuracy. Code is available at https://github.com/web2bigtable/web2bigtable.

Web2BigTable : Un système bi-niveau à agents multiples basé sur LLM pour la recherche et l'extraction d'informations à l'échelle du web

Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction

Résumé

Support