비전 딥리서치: 멀티모달 대규모 언어 모델의 심층 연구 능력 강화
Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
January 29, 2026
저자: Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang
cs.AI
초록
다중모달 대규모 언어 모델(MLLMs)은 다양한 비전 과제에서 놀라운 성공을 거두었습니다. 그러나 모델 내부의 세계 지식 용량에 한계가 있기 때문에, 기존 연구에서는 방대한 사실 정보가 필요한 과제에서 성능을 크게 향상시키기 위해 '추론-후-도구-호출' 방식을 통해 시각 및 텍스트 검색 엔진을 활용하는 MLLMs 증강 방식을 제안했습니다. 그러나 이러한 접근법들은 일반적으로 단일한 전체 수준 또는 개체 수준의 이미지 쿼리와 소량의 텍스트 쿼리만으로 질문에 답하는 데 필요한 핵심 증거를 검색하는 데 충분하다는 비현실적인 가정 하에 다중모달 검색을 단순한 설정으로 정의합니다. 이는 시각적 노이즈가 많은 실제 시나리오에서는 비현실적입니다. 더욱이 기존 접근법들은 추론 깊이와 검색 범위에 제한이 있어 다양한 시각 및 텍스트 소스로부터 증거를 종합해야 하는 복잡한 질문을 해결하기 어렵습니다. 이를 바탕으로 우리는 Vision-DeepResearch를 제안합니다. 본 연구는 새로운 다중모달 딥리서치 패러다임, 즉 다중 턴, 다중 개체, 다중 규모의 시각 및 텍스트 검색을 수행하여 심한 노이즈 하에서도 실제 검색 엔진을 강건하게 활용하는 방식을 제시합니다. 우리의 Vision-DeepResearch는 수십 단계의 추론과 수백 번의 엔진 상호작용을 지원하면서, 콜드 스타트 지도 학습과 강화 학습을 통해 딥리서치 능력을 MLLM 내부에 내재화하여 강력한 종단형 다중모달 딥리서치 MLLM을 구현합니다. 이는 기존의 다중모달 딥리서치 MLLMs와 GPT-5, Gemini-2.5-pro, Claude-4-Sonnet과 같은 강력한 클로즈드 소스 기반 모델을 기반으로 구축된 워크플로우를 크게 능가합니다. 코드는 https://github.com/Osilly/Vision-DeepResearch 에 공개될 예정입니다.
English
Multimodal large language models (MLLMs) have achieved remarkable success across a broad range of vision tasks. However, constrained by the capacity of their internal world knowledge, prior work has proposed augmenting MLLMs by ``reasoning-then-tool-call'' for visual and textual search engines to obtain substantial gains on tasks requiring extensive factual information. However, these approaches typically define multimodal search in a naive setting, assuming that a single full-level or entity-level image query and few text query suffices to retrieve the key evidence needed to answer the question, which is unrealistic in real-world scenarios with substantial visual noise. Moreover, they are often limited in the reasoning depth and search breadth, making it difficult to solve complex questions that require aggregating evidence from diverse visual and textual sources. Building on this, we propose Vision-DeepResearch, which proposes one new multimodal deep-research paradigm, i.e., performs multi-turn, multi-entity and multi-scale visual and textual search to robustly hit real-world search engines under heavy noise. Our Vision-DeepResearch supports dozens of reasoning steps and hundreds of engine interactions, while internalizing deep-research capabilities into the MLLM via cold-start supervision and RL training, resulting in a strong end-to-end multimodal deep-research MLLM. It substantially outperforming existing multimodal deep-research MLLMs, and workflows built on strong closed-source foundation model such as GPT-5, Gemini-2.5-pro and Claude-4-Sonnet. The code will be released in https://github.com/Osilly/Vision-DeepResearch.