Struct-Searcher: El pensamiento estructural agéntico impulsa la búsqueda profunda de información multimodal

Resumen

Los agentes de investigación profunda han despertado un creciente interés por su capacidad para recopilar información en línea a gran escala con el fin de adquirir conocimiento objetivo, y los esfuerzos recientes han pasado de la búsqueda de información puramente textual a entornos multimodales. Sin embargo, los flujos de trabajo agentivos existentes se alinean en gran medida con los modelos de acumulación de evidencia, que agregan evidencia de forma lineal y carecen de mecanismos fundamentados para manejar información contradictoria proveniente de modalidades heterogéneas. Para abordar esta limitación, proponemos Struct-Searcher, un flujo de trabajo agentivo estructural fundamentado en la teoría de revisión de creencias, que mantiene explícitamente un gráfico estructural multimodal en evolución a lo largo del proceso de razonamiento, permitiendo una búsqueda profunda de información multimodal eficaz y consciente de las contradicciones. Experimentos exhaustivos en múltiples conjuntos de datos de referencia y modelos base demuestran que Struct-Searcher es (1) conectable y funcional e independiente del modelo, logrando una mejora relativa de precisión promedio del 17.2 % en BrowseComp-VL en cinco modelos base diferentes; (2) de alto rendimiento, superando consistentemente a los modelos de visión y lenguaje (VLM) avanzados y a los agentes de investigación profunda, con mejoras relativas de precisión del 3.7 % en MM-BrowseComp, del 1.5 % en HLE-VL y del 0.7 % en BrowseComp-VL con respecto al segundo mejor enfoque competidor.

English

Deep research agents have attracted increasing attention for their ability to collect large-scale online information to acquire target knowledge, with recent efforts shifting from purely text-based information seeking to multimodal settings. However, existing agentic workflows are largely aligned with evidence accumulation models, which linearly aggregate evidence and lack principled mechanisms for handling contradictory information across heterogeneous modalities. Towards this end, we propose Struct-Searcher, a structural agentic workflow grounded in belief revision theory that explicitly maintains an evolving multimodal structural graph throughout the reasoning process, enabling effective conflict-aware multimodal deep information seeking. Extensive experiments across multiple benchmark datasets and backbone models demonstrate that Struct-Searcher is (1) plug-and-play and model-agnostic, yielding an average relative accuracy improvement of 17.2% on BrowseComp-VL across five different backbones. (2) top-performing, consistently outperforming state-of-the-art vision-language models (VLMs) and deep research agents, with relative accuracy improvements of 3.7% on MM-BrowseComp, 1.5% on HLE-VL, and 0.7% on BrowseComp-VL over the second-best competing approach.