ChatPaper.aiChatPaper

Vision-DeepResearch : Inciter les capacités de recherche approfondie dans les modèles de langage multimodaux de grande taille

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

January 29, 2026
papers.authors: Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang
cs.AI

papers.abstract

Les modèles de langage multimodaux (MLLM) ont obtenu un succès remarquable sur un large éventail de tâches visuelles. Cependant, limités par la capacité de leurs connaissances internes du monde, les travaux antérieurs ont proposé d'augmenter les MLLM via une approche de « raisonnement-puis-appel-d'outil » pour les moteurs de recherche visuels et textuels, afin d'obtenir des gains substantiels sur les tâches nécessitant des informations factuelles étendues. Ces approches définissent généralement la recherche multimodale dans un cadre naïf, supposant qu'une seule requête image de haut niveau ou au niveau des entités et quelques requêtes textuelles suffisent à récupérer les preuves clés pour répondre à la question, ce qui est irréaliste dans les scénarios réels comportant un bruit visuel important. De plus, elles sont souvent limitées en profondeur de raisonnement et en étendue de recherche, rendant difficile la résolution de questions complexes nécessitant l'agrégation de preuves provenant de sources visuelles et textuelles diverses. Sur cette base, nous proposons Vision-DeepResearch, qui introduit un nouveau paradigme de recherche approfondie multimodale, effectuant une recherche visuelle et textuelle multi-tours, multi-entités et multi-échelles pour interagir robustement avec les moteurs de recherche réels malgré un bruit important. Notre Vision-DeepResearch supporte des dizaines d'étapes de raisonnement et des centaines d'interactions avec les moteurs, tout en internalisant les capacités de recherche approfondie dans le MLLM via un apprentissage supervisé à froid et un entraînement par apprentissage par renforcement, produisant un MLLM multimodal de recherche approfondie fort et de bout en bout. Il surpasse substantiellement les MLLM multimodaux existants dédiés à la recherche approfondie, ainsi que les workflows construits sur des modèles fondateurs propriétaires performants tels que GPT-5, Gemini-2.5-pro et Claude-4-Sonnet. Le code sera publié sur https://github.com/Osilly/Vision-DeepResearch.
English
Multimodal large language models (MLLMs) have achieved remarkable success across a broad range of vision tasks. However, constrained by the capacity of their internal world knowledge, prior work has proposed augmenting MLLMs by ``reasoning-then-tool-call'' for visual and textual search engines to obtain substantial gains on tasks requiring extensive factual information. However, these approaches typically define multimodal search in a naive setting, assuming that a single full-level or entity-level image query and few text query suffices to retrieve the key evidence needed to answer the question, which is unrealistic in real-world scenarios with substantial visual noise. Moreover, they are often limited in the reasoning depth and search breadth, making it difficult to solve complex questions that require aggregating evidence from diverse visual and textual sources. Building on this, we propose Vision-DeepResearch, which proposes one new multimodal deep-research paradigm, i.e., performs multi-turn, multi-entity and multi-scale visual and textual search to robustly hit real-world search engines under heavy noise. Our Vision-DeepResearch supports dozens of reasoning steps and hundreds of engine interactions, while internalizing deep-research capabilities into the MLLM via cold-start supervision and RL training, resulting in a strong end-to-end multimodal deep-research MLLM. It substantially outperforming existing multimodal deep-research MLLMs, and workflows built on strong closed-source foundation model such as GPT-5, Gemini-2.5-pro and Claude-4-Sonnet. The code will be released in https://github.com/Osilly/Vision-DeepResearch.
PDF1474February 7, 2026