ChatPaper.aiChatPaper

Struct-Searcher: 에이전트적 구조적 사고가 다중 모달 심층 정보 탐색을 발전시키다

Struct-Searcher: Agentic Structural Thinking Advances Multimodal Deep Information Seeking

June 5, 2026
저자: Fan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Zheng Lian, Hao Wu, Yuan Gao, Xinyu Geng, Xin Wang, Pheng-Ann Heng
cs.AI

초록

딥 리서치 에이전트는 대규모 온라인 정보를 수집하여 목표 지식을 획득하는 능력으로 인해 점점 더 주목받고 있으며, 최근 연구는 순수 텍스트 기반 정보 탐색에서 멀티모달 설정으로 전환되고 있다. 그러나 기존의 에이전트 워크플로는 주로 증거 축적 모델에 기반하고 있으며, 이는 증거를 선형적으로 집계하고 이질적인 모달리티 간의 모순된 정보를 처리하기 위한 원칙적인 메커니즘이 부족하다. 이를 위해, 우리는 신념 수정 이론에 기반한 구조적 에이전트 워크플로인 Struct-Searcher를 제안한다. 이는 추론 과정 전반에 걸쳐 진화하는 멀티모달 구조 그래프를 명시적으로 유지하여, 충돌을 인지하는 효과적인 멀티모달 심층 정보 탐색을 가능하게 한다. 다양한 벤치마크 데이터셋과 백본 모델에 걸친 광범위한 실험을 통해 Struct-Searcher는 (1) 플러그 앤 플레이 방식이며 모델에 구애받지 않아, 다섯 가지 서로 다른 백본에서 BrowseComp-VL에 대해 평균 17.2%의 상대 정확도 향상을 달성한다. (2) 최고 성능을 보이며, 최첨단 비전-언어 모델(VLM) 및 딥 리서치 에이전트를 일관되게 능가하여, 두 번째로 좋은 경쟁 방법 대비 MM-BrowseComp에서 3.7%, HLE-VL에서 1.5%, BrowseComp-VL에서 0.7%의 상대 정확도 향상을 보인다.
English
Deep research agents have attracted increasing attention for their ability to collect large-scale online information to acquire target knowledge, with recent efforts shifting from purely text-based information seeking to multimodal settings. However, existing agentic workflows are largely aligned with evidence accumulation models, which linearly aggregate evidence and lack principled mechanisms for handling contradictory information across heterogeneous modalities. Towards this end, we propose Struct-Searcher, a structural agentic workflow grounded in belief revision theory that explicitly maintains an evolving multimodal structural graph throughout the reasoning process, enabling effective conflict-aware multimodal deep information seeking. Extensive experiments across multiple benchmark datasets and backbone models demonstrate that Struct-Searcher is (1) plug-and-play and model-agnostic, yielding an average relative accuracy improvement of 17.2% on BrowseComp-VL across five different backbones. (2) top-performing, consistently outperforming state-of-the-art vision-language models (VLMs) and deep research agents, with relative accuracy improvements of 3.7% on MM-BrowseComp, 1.5% on HLE-VL, and 0.7% on BrowseComp-VL over the second-best competing approach.