Struct-Searcher : La pensée structurelle agentique fait progresser la recherche profonde d'information multimodale
Struct-Searcher: Agentic Structural Thinking Advances Multimodal Deep Information Seeking
June 5, 2026
Auteurs: Fan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Zheng Lian, Hao Wu, Yuan Gao, Xinyu Geng, Xin Wang, Pheng-Ann Heng
cs.AI
Résumé
Les agents de recherche approfondie suscitent un intérêt croissant de par leur capacité à collecter des informations en ligne à grande échelle pour acquérir des connaissances ciblées, les efforts récents se déplaçant d'une recherche purement textuelle vers des contextes multimodaux. Cependant, les workflows agentiques existants sont largement alignés sur les modèles d'accumulation de preuves, qui agrègent linéairement les informations et manquent de mécanismes fondés pour traiter les données contradictoires issues de modalités hétérogènes. Pour y remédier, nous proposons Struct-Searcher, un workflow agentique structurel ancré dans la théorie de la révision des croyances, qui maintient explicitement un graphe structurel multimodal en évolution tout au long du processus de raisonnement, permettant ainsi une recherche approfondie d'informations multimodales efficace et consciente des contradictions. Des expériences approfondies menées sur plusieurs ensembles de données de référence et modèles de base démontrent que Struct-Searcher est (1) prêt à l'emploi et indépendant du modèle, avec une amélioration moyenne de la précision relative de 17,2 % sur BrowseComp-VL pour cinq modèles de base différents ; (2) performant au plus haut niveau, surpassant systématiquement les modèles vision-langage (VLM) de pointe et les agents de recherche approfondie, avec des améliorations de la précision relative de 3,7 % sur MM-BrowseComp, 1,5 % sur HLE-VL et 0,7 % sur BrowseComp-VL par rapport à la deuxième meilleure approche concurrente.
English
Deep research agents have attracted increasing attention for their ability to collect large-scale online information to acquire target knowledge, with recent efforts shifting from purely text-based information seeking to multimodal settings. However, existing agentic workflows are largely aligned with evidence accumulation models, which linearly aggregate evidence and lack principled mechanisms for handling contradictory information across heterogeneous modalities. Towards this end, we propose Struct-Searcher, a structural agentic workflow grounded in belief revision theory that explicitly maintains an evolving multimodal structural graph throughout the reasoning process, enabling effective conflict-aware multimodal deep information seeking. Extensive experiments across multiple benchmark datasets and backbone models demonstrate that Struct-Searcher is (1) plug-and-play and model-agnostic, yielding an average relative accuracy improvement of 17.2% on BrowseComp-VL across five different backbones. (2) top-performing, consistently outperforming state-of-the-art vision-language models (VLMs) and deep research agents, with relative accuracy improvements of 3.7% on MM-BrowseComp, 1.5% on HLE-VL, and 0.7% on BrowseComp-VL over the second-best competing approach.