Web2BigTable: Ein bi-level Multi-Agenten-LLM-System für die internetweite Informationssuche und -extraktion

Zusammenfassung

Agentische Websuche sieht sich zunehmend zwei unterschiedlichen Anforderungen gegenüber: tiefgehendem Schlussfolgern über ein einzelnes Ziel und strukturierter Aggregation über viele Entitäten und heterogene Quellen hinweg. Aktuelle Systeme haben mit beiden Aspekten Schwierigkeiten. Breitenorientierte Aufgaben erfordern schema-konforme Ausgaben mit großer Abdeckung und konsistenter Übereinstimmung zwischen Entitäten, während tiefenorientierte Aufgaben kohärentes Schlussfolgern über lange, verzweigte Suchtrajektorien erfordern. Wir stellen Web2BigTable vor, ein Multi-Agenten-Framework für die Web-zu-Tabelle-Suche, das beide Regime unterstützt. Web2BigTable verwendet eine zweistufige Architektur, bei der ein übergeordneter Orchestrator die Aufgabe in Teilprobleme zerlegt und untergeordnete Worker-Agenten diese parallel lösen. Durch einen geschlossenen Run–Verify–Reflect-Prozess verbessert das Framework sowohl die Zerlegung als auch die Ausführung über die Zeit hinweg mittels eines persistenten, menschenlesbaren externen Speichers, mit sich selbst entwickelnden Aktualisierungen für jeden einzelnen Agenten. Während der Ausführung koordinieren sich die Worker über einen gemeinsamen Arbeitsbereich, der partielle Ergebnisse sichtbar macht, wodurch redundante Erkundung reduziert, widersprüchliche Evidenz abgeglichen und auf neu auftretende Abdeckungslücken reagiert werden kann. Web2BigTable setzt einen neuen Maßstab auf WideSearch und erreicht eine Avg@4-Erfolgsrate von 38,50 (7,5-mal besser als der Zweitbeste mit 5,10), ein Row-F1 von 63,53 (+25,03 gegenüber dem Zweitbesten) und ein Item-F1 von 80,12 (+14,42 gegenüber dem Zweitbesten). Es verallgemeinert auch auf tiefenorientierte Suche bei XBench-DeepSearch und erreicht eine Genauigkeit von 73,0. Der Code ist verfügbar unter https://github.com/web2bigtable/web2bigtable.

English

Agentic web search increasingly faces two distinct demands: deep reasoning over a single target, and structured aggregation across many entities and heterogeneous sources. Current systems struggle on both fronts. Breadth-oriented tasks demand schema-aligned outputs with wide coverage and cross-entity consistency, while depth-oriented tasks require coherent reasoning over long, branching search trajectories. We introduce Web2BigTable, a multi-agent framework for web-to-table search that supports both regimes. Web2BigTable adopts a bi-level architecture in which an upper-level orchestrator decomposes the task into sub-problems and lower-level worker agents solve them in parallel. Through a closed-loop run--verify--reflect process, the framework jointly improves decomposition and execution over time via persistent, human-readable external memory, with self-evolving updates to each single-agent. During execution, workers coordinate through a shared workspace that makes partial findings visible, allowing them to reduce redundant exploration, reconcile conflicting evidence, and adapt to emerging coverage gaps. Web2BigTable sets a new state of the art on WideSearch, reaching an Avg@4 Success Rate of 38.50 (7.5times the second best at 5.10), Row F1 of 63.53 (+25.03 over the second best), and Item F1 of 80.12 (+14.42 over the second best). It also generalises to depth-oriented search on XBench-DeepSearch, achieving 73.0 accuracy. Code is available at https://github.com/web2bigtable/web2bigtable.

Web2BigTable: Ein bi-level Multi-Agenten-LLM-System für die internetweite Informationssuche und -extraktion

Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction

Zusammenfassung

Support