Web2BigTable: Un Sistema Bi-Nivel de Agentes Multi-Agente con LLM para la Búsqueda y Extracción de Información a Escala de Internet

Resumen

La búsqueda web agentica enfrenta cada vez más dos demandas distintas: el razonamiento profundo sobre un único objetivo y la agregación estructurada a través de múltiples entidades y fuentes heterogéneas. Los sistemas actuales tienen dificultades en ambos frentes. Las tareas orientadas a la amplitud exigen salidas alineadas con esquemas que tengan amplia cobertura y consistencia entre entidades, mientras que las tareas orientadas a la profundidad requieren un razonamiento coherente sobre trayectorias de búsqueda largas y ramificadas. Presentamos Web2BigTable, un marco multiagente para la búsqueda web-a-tabla que soporta ambos regímenes. Web2BigTable adopta una arquitectura de dos niveles en la que un orquestador de nivel superior descompone la tarea en subproblemas y agentes trabajadores de nivel inferior los resuelven en paralelo. Mediante un proceso de bucle cerrado de ejecución-verificación-reflexión, el marco mejora conjuntamente la descomposición y la ejecución a lo largo del tiempo mediante una memoria externa persistente y legible por humanos, con actualizaciones de auto-evolución para cada agente individual. Durante la ejecución, los trabajadores se coordinan a través de un espacio de trabajo compartido que hace visibles los hallazgos parciales, permitiéndoles reducir la exploración redundante, reconciliar evidencia conflictiva y adaptarse a las brechas de cobertura emergentes. Web2BigTable establece un nuevo estado del arte en WideSearch, alcanzando una Tasa de Éxito Avg@4 de 38.50 (7.5 veces superior al segundo mejor con 5.10), un F1 de Fila de 63.53 (+25.03 sobre el segundo mejor) y un F1 de Ítem de 80.12 (+14.42 sobre el segundo mejor). También generaliza a la búsqueda orientada a la profundidad en XBench-DeepSearch, logrando una precisión de 73.0. El código está disponible en https://github.com/web2bigtable/web2bigtable.

English

Agentic web search increasingly faces two distinct demands: deep reasoning over a single target, and structured aggregation across many entities and heterogeneous sources. Current systems struggle on both fronts. Breadth-oriented tasks demand schema-aligned outputs with wide coverage and cross-entity consistency, while depth-oriented tasks require coherent reasoning over long, branching search trajectories. We introduce Web2BigTable, a multi-agent framework for web-to-table search that supports both regimes. Web2BigTable adopts a bi-level architecture in which an upper-level orchestrator decomposes the task into sub-problems and lower-level worker agents solve them in parallel. Through a closed-loop run--verify--reflect process, the framework jointly improves decomposition and execution over time via persistent, human-readable external memory, with self-evolving updates to each single-agent. During execution, workers coordinate through a shared workspace that makes partial findings visible, allowing them to reduce redundant exploration, reconcile conflicting evidence, and adapt to emerging coverage gaps. Web2BigTable sets a new state of the art on WideSearch, reaching an Avg@4 Success Rate of 38.50 (7.5times the second best at 5.10), Row F1 of 63.53 (+25.03 over the second best), and Item F1 of 80.12 (+14.42 over the second best). It also generalises to depth-oriented search on XBench-DeepSearch, achieving 73.0 accuracy. Code is available at https://github.com/web2bigtable/web2bigtable.

Web2BigTable: Un Sistema Bi-Nivel de Agentes Multi-Agente con LLM para la Búsqueda y Extracción de Información a Escala de Internet

Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction

Resumen

Support