장기적 관점의 자율적 멀티모달 검색을 향하여
Towards Long-horizon Agentic Multimodal Search
April 14, 2026
저자: Yifan Du, Zikang Liu, Jinbiao Peng, Jie Wu, Junyi Li, Jinyang Li, Wayne Xin Zhao, Ji-Rong Wen
cs.AI
초록
멀티모달 딥 탐색 에이전트는 텍스트 및 시각 증거를 반복적으로 수집함으로써 복잡한 작업 해결에 큰 잠재력을 보여주고 있습니다. 그러나 기존 방법들은 긴 탐색 과정에서 다종다기한 정보와 멀티모달 입력과 관련된 높은 토큰 비용을 관리하는 데 어려움을 겪으며, 컨텍스트 폭발이나 중요한 시각 신호의 손실이 흔히 발생합니다. 이를 해결하기 위해 우리는 파일 기반 시각 표현 메커니즘을 중심으로 한 새로운 장기 멀티모달 딥 탐색 프레임워크인 LMM-Searcher를 제안합니다. 시각 자산을 외부 파일 시스템으로 오프로딩하고 이를 경량의 텍스트 식별자(UID)에 매핑함으로써, 우리의 접근 방식은 향후 접근을 위한 멀티모달 정보를 보존하면서 컨텍스트 오버헤드를 완화합니다. 우리는 에이전트에 맞춤형 이미지 가져오기 도구를 장착하여 능동적 인식을 위한 점진적, 주문형 시각 로딩 전략을 가능하게 합니다. 더 나아가, 복잡한 교차 모달 다중 홉 추론을 필요로 하는 쿼리를 생성하도록 설계된 데이터 합성 파이프라인을 소개합니다. 이 파이프라인을 사용하여 12K개의 고품질 궤적 데이터를 생성하여 Qwen3-VL-Thinking-30A3B를 전문화된 멀티모달 딥 탐색 에이전트로 미세 조정합니다. 4개의 벤치마크에 걸친 광범위한 실험을 통해 우리의 방법이 100턴에 이르는 긴 탐색 과정까지 성공적으로 확장 가능함을 입증하였으며, MM-BrowseComp 및 MMSearch-Plus와 같은 도전적인 장기 벤치마크에서 오픈소스 모델 중 최첨단 성능을 달성하는 동시에 다양한 기본 모델 간 강력한 일반화 능력을 보여줍니다. 우리의 코드는 https://github.com/RUCAIBox/LMM-Searcher에 공개될 예정입니다.
English
Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.