Struct-Searcher: Pensamento Estrutural Agêntico Avança a Busca Profunda de Informação Multimodal
Struct-Searcher: Agentic Structural Thinking Advances Multimodal Deep Information Seeking
June 5, 2026
Autores: Fan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Zheng Lian, Hao Wu, Yuan Gao, Xinyu Geng, Xin Wang, Pheng-Ann Heng
cs.AI
Resumo
Agentes de pesquisa profunda têm atraído crescente atenção por sua capacidade de coletar informações em larga escala online para adquirir conhecimento-alvo, com esforços recentes migrando de busca puramente baseada em texto para configurações multimodais. No entanto, os fluxos de trabalho agentivos existentes estão amplamente alinhados com modelos de acumulação de evidências, que agregam evidências de forma linear e carecem de mecanismos fundamentados para lidar com informações contraditórias entre modalidades heterogêneas. Nesse sentido, propomos o Struct-Searcher, um fluxo de trabalho agentivo estrutural fundamentado na teoria de revisão de crenças, que mantém explicitamente um grafo estrutural multimodal em evolução ao longo de todo o processo de raciocínio, permitindo uma busca profunda de informações multimodal eficaz e consciente de conflitos. Experimentos extensivos em múltiplos conjuntos de dados de referência e modelos base demonstram que o Struct-Searcher é (1) plug-and-play e agnóstico em relação a modelo, resultando em uma melhoria média de acurácia relativa de 17,2% no BrowseComp-VL entre cinco diferentes modelos base; (2) de alto desempenho, superando consistentemente modelos de linguagem-visão (VLMs) de última geração e agentes de pesquisa profunda, com melhorias de acurácia relativa de 3,7% no MM-BrowseComp, 1,5% no HLE-VL e 0,7% no BrowseComp-VL em relação à segunda melhor abordagem concorrente.
English
Deep research agents have attracted increasing attention for their ability to collect large-scale online information to acquire target knowledge, with recent efforts shifting from purely text-based information seeking to multimodal settings. However, existing agentic workflows are largely aligned with evidence accumulation models, which linearly aggregate evidence and lack principled mechanisms for handling contradictory information across heterogeneous modalities. Towards this end, we propose Struct-Searcher, a structural agentic workflow grounded in belief revision theory that explicitly maintains an evolving multimodal structural graph throughout the reasoning process, enabling effective conflict-aware multimodal deep information seeking. Extensive experiments across multiple benchmark datasets and backbone models demonstrate that Struct-Searcher is (1) plug-and-play and model-agnostic, yielding an average relative accuracy improvement of 17.2% on BrowseComp-VL across five different backbones. (2) top-performing, consistently outperforming state-of-the-art vision-language models (VLMs) and deep research agents, with relative accuracy improvements of 3.7% on MM-BrowseComp, 1.5% on HLE-VL, and 0.7% on BrowseComp-VL over the second-best competing approach.