Struct-Searcher: Агентное структурное мышление продвигает мультимодальный глубокий информационный поиск

Аннотация

Агенты глубокого исследования привлекают всё большее внимание благодаря своей способности собирать крупномасштабную онлайн-информацию для получения целевых знаний, причём недавние усилия смещаются от сугубо текстового поиска информации к мультимодальным условиям. Однако существующие агентные рабочие процессы в значительной степени согласованы с моделями накопления доказательств, которые линейно агрегируют свидетельства и не имеют принципиальных механизмов для обработки противоречивой информации из разнородных модальностей. В связи с этим мы предлагаем Struct-Searcher — структурный агентный рабочий процесс, основанный на теории пересмотра убеждений, который явно поддерживает эволюционирующий мультимодальный структурный граф на всём протяжении процесса рассуждения, что обеспечивает эффективный поиск глубокой мультимодальной информации с учётом противоречий. Обширные эксперименты на нескольких эталонных наборах данных и базовых моделях показывают, что Struct-Searcher (1) является универсальным и независимым от модели, обеспечивая среднее относительное повышение точности на 17,2% на BrowseComp-VL при использовании пяти различных базовых архитектур; (2) демонстрирует наилучшие результаты, последовательно превосходя современные модели зрения и языка (VLM) и агентов глубокого исследования, с относительным приростом точности на 3,7% на MM-BrowseComp, 1,5% на HLE-VL и 0,7% на BrowseComp-VL по сравнению со вторым лучшим конкурирующим подходом.

English

Deep research agents have attracted increasing attention for their ability to collect large-scale online information to acquire target knowledge, with recent efforts shifting from purely text-based information seeking to multimodal settings. However, existing agentic workflows are largely aligned with evidence accumulation models, which linearly aggregate evidence and lack principled mechanisms for handling contradictory information across heterogeneous modalities. Towards this end, we propose Struct-Searcher, a structural agentic workflow grounded in belief revision theory that explicitly maintains an evolving multimodal structural graph throughout the reasoning process, enabling effective conflict-aware multimodal deep information seeking. Extensive experiments across multiple benchmark datasets and backbone models demonstrate that Struct-Searcher is (1) plug-and-play and model-agnostic, yielding an average relative accuracy improvement of 17.2% on BrowseComp-VL across five different backbones. (2) top-performing, consistently outperforming state-of-the-art vision-language models (VLMs) and deep research agents, with relative accuracy improvements of 3.7% on MM-BrowseComp, 1.5% on HLE-VL, and 0.7% on BrowseComp-VL over the second-best competing approach.