Struct-Searcher: Agentisch structureel denken bevordert multimodaal diepgaand informatiezoeken

Samenvatting

Diepgaande onderzoeksagenten hebben steeds meer aandacht getrokken vanwege hun vermogen om grootschalige online informatie te verzamelen en zo doelgerichte kennis te verwerven, waarbij recente inspanningen verschuiven van puur tekstgebaseerd informatie zoeken naar multimodale omgevingen. Bestaande agentische workflows zijn echter grotendeels afgestemd op bewijsaccumulatiemodellen, die bewijs lineair samenvoegen en geen principiële mechanismen bieden voor het omgaan met tegenstrijdige informatie over heterogene modaliteiten heen. Om dit aan te pakken stellen wij Struct-Searcher voor, een structurele agentische workflow die is gebaseerd op de theorie van overtuigingsherziening en die tijdens het redeneerproces expliciet een evoluerende multimodale structurele graaf onderhoudt, waardoor effectieve conflictbewuste multimodale diepgaande informatiezoektocht mogelijk wordt. Uitgebreide experimenten op meerdere benchmarkdatasets en backbone-modellen tonen aan dat Struct-Searcher (1) plug-and-play en model-agnostisch is, met een gemiddelde relatieve nauwkeurigheidsverbetering van 17,2% op BrowseComp-VL over vijf verschillende backbones; (2) topprestaties levert, consistent beter presterend dan state-of-the-art visie-taalsystemen (VLMs) en diepgaande onderzoeksagenten, met relatieve nauwkeurigheidsverbeteringen van 3,7% op MM-BrowseComp, 1,5% op HLE-VL en 0,7% op BrowseComp-VL ten opzichte van de op een na beste concurrerende aanpak.

English

Deep research agents have attracted increasing attention for their ability to collect large-scale online information to acquire target knowledge, with recent efforts shifting from purely text-based information seeking to multimodal settings. However, existing agentic workflows are largely aligned with evidence accumulation models, which linearly aggregate evidence and lack principled mechanisms for handling contradictory information across heterogeneous modalities. Towards this end, we propose Struct-Searcher, a structural agentic workflow grounded in belief revision theory that explicitly maintains an evolving multimodal structural graph throughout the reasoning process, enabling effective conflict-aware multimodal deep information seeking. Extensive experiments across multiple benchmark datasets and backbone models demonstrate that Struct-Searcher is (1) plug-and-play and model-agnostic, yielding an average relative accuracy improvement of 17.2% on BrowseComp-VL across five different backbones. (2) top-performing, consistently outperforming state-of-the-art vision-language models (VLMs) and deep research agents, with relative accuracy improvements of 3.7% on MM-BrowseComp, 1.5% on HLE-VL, and 0.7% on BrowseComp-VL over the second-best competing approach.