ChatPaper.aiChatPaper

DeepMMSearch-R1: 멀티모달 웹 검색에서 멀티모달 LLM의 역량 강화

DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

October 14, 2025
저자: Kartik Narayan, Yang Xu, Tian Cao, Kavya Nerella, Vishal M. Patel, Navid Shiee, Peter Grasch, Chao Jia, Yinfei Yang, Zhe Gan
cs.AI

초록

실제 응용 분야에서의 멀티모달 대형 언어 모델(MLLMs)은 외부 지식 소스에 접근할 수 있어야 하며, 정보 탐색 및 지식 집약적인 사용자 질의를 해결하기 위해 끊임없이 변화하는 실세계 정보에 민첩하게 대응해야 합니다. 기존의 접근 방식, 예를 들어 검색 증강 생성(RAG) 방법, 검색 에이전트, 검색 기능이 탑재된 MLLMs 등은 경직된 파이프라인, 과도한 검색 호출, 잘못 구성된 검색 쿼리 등의 문제로 인해 비효율성과 차선의 결과를 초래하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 이미지와 텍스트 검색 도구 모두에 대해 주문형 다중 턴 웹 검색을 수행하고 동적으로 쿼리를 작성할 수 있는 최초의 멀티모달 LLM인 DeepMMSearch-R1을 제안합니다. 구체적으로, DeepMMSearch-R1은 입력 이미지의 관련 부분을 기반으로 웹 검색을 시작하여 이미지 검색을 더 효과적으로 만들고, 검색된 정보를 기반으로 텍스트 검색 쿼리를 반복적으로 조정함으로써 자기 반영과 자기 수정을 가능하게 합니다. 우리의 접근 방식은 두 단계의 학습 파이프라인에 의존합니다: 초기 감독 미세 조정 단계와 온라인 강화 학습 최적화 단계입니다. 학습을 위해, 우리는 웹 검색 도구에서 얻은 실세계 정보와 자동화된 파이프라인을 혼합하여 생성한 새로운 멀티모달 VQA 데이터셋인 DeepMMSearchVQA를 소개합니다. 이 데이터셋은 텍스트와 시각 정보를 통합한 다양한 다중 홉 쿼리를 포함하며, 모델에게 언제 검색을 해야 하는지, 무엇을 검색해야 하는지, 어떤 검색 도구를 사용해야 하는지, 그리고 검색된 정보를 어떻게 추론해야 하는지를 가르칩니다. 우리는 다양한 지식 집약적 벤치마크에 걸쳐 광범위한 실험을 수행하여 우리 접근 방식의 우수성을 입증합니다. 마지막으로, 결과를 분석하고 멀티모달 웹 검색을 발전시키는 데 유용한 통찰을 제공합니다.
English
Multimodal Large Language Models (MLLMs) in real-world applications require access to external knowledge sources and must remain responsive to the dynamic and ever-changing real-world information in order to address information-seeking and knowledge-intensive user queries. Existing approaches, such as retrieval augmented generation (RAG) methods, search agents, and search equipped MLLMs, often suffer from rigid pipelines, excessive search calls, and poorly constructed search queries, which result in inefficiencies and suboptimal outcomes. To address these limitations, we present DeepMMSearch-R1, the first multimodal LLM capable of performing on-demand, multi-turn web searches and dynamically crafting queries for both image and text search tools. Specifically, DeepMMSearch-R1 can initiate web searches based on relevant crops of the input image making the image search more effective, and can iteratively adapt text search queries based on retrieved information, thereby enabling self-reflection and self-correction. Our approach relies on a two-stage training pipeline: a cold start supervised finetuning phase followed by an online reinforcement learning optimization. For training, we introduce DeepMMSearchVQA, a novel multimodal VQA dataset created through an automated pipeline intermixed with real-world information from web search tools. This dataset contains diverse, multi-hop queries that integrate textual and visual information, teaching the model when to search, what to search for, which search tool to use and how to reason over the retrieved information. We conduct extensive experiments across a range of knowledge-intensive benchmarks to demonstrate the superiority of our approach. Finally, we analyze the results and provide insights that are valuable for advancing multimodal web-search.
PDF132February 7, 2026