Vision-DeepResearch: Стимулирование способности к глубоким исследованиям в мультимодальных больших языковых моделях
Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
January 29, 2026
Авторы: Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) достигли значительных успехов в решении широкого спектра визуальных задач. Однако, будучи ограниченными объемом внутренних знаний о мире, предыдущие исследования предлагали расширять возможности MLLM с помощью парадигмы «рассуждение-затем-вызов-инструмента» для взаимодействия с визуальными и текстовыми поисковыми системами, что позволило получить существенный прирост производительности на задачах, требующих обширной фактической информации. Тем не менее, эти подходы обычно определяют мультимодальный поиск в упрощенной постановке, предполагая, что единственного запроса на уровне целого изображения или сущности и нескольких текстовых запросов достаточно для извлечения ключевых свидетельств, необходимых для ответа на вопрос, что нереалистично в реальных сценариях с существенным визуальным шумом. Более того, они часто ограничены по глубине рассуждений и широте поиска, что затрудняет решение сложных вопросов, требующих агрегации свидетельств из разнообразных визуальных и текстовых источников. Основываясь на этом, мы предлагаем Vision-DeepResearch — новую парадигму мультимодального глубокого исследования, которая выполняет многоходовый, многосущностный и многомасштабный визуальный и текстовый поиск для устойчивой работы с реальными поисковыми системами в условиях сильного шума. Наш Vision-DeepResearch поддерживает десятки шагов рассуждений и сотни взаимодействий с поисковыми системами, одновременно интериоризируя возможности глубокого исследования в MLLM посредством холодного старта с учителем и обучения с подкреплением, что приводит к созданию мощной end-to-end MLLM для глубокого мультимодального исследования. Она существенно превосходит существующие MLLM для глубокого мультимодального исследования, а также рабочие процессы, построенные на основе мощных проприетарных фундаментальных моделей, таких как GPT-5, Gemini-2.5-pro и Claude-4-Sonnet. Код будет доступен по адресу https://github.com/Osilly/Vision-DeepResearch.
English
Multimodal large language models (MLLMs) have achieved remarkable success across a broad range of vision tasks. However, constrained by the capacity of their internal world knowledge, prior work has proposed augmenting MLLMs by ``reasoning-then-tool-call'' for visual and textual search engines to obtain substantial gains on tasks requiring extensive factual information. However, these approaches typically define multimodal search in a naive setting, assuming that a single full-level or entity-level image query and few text query suffices to retrieve the key evidence needed to answer the question, which is unrealistic in real-world scenarios with substantial visual noise. Moreover, they are often limited in the reasoning depth and search breadth, making it difficult to solve complex questions that require aggregating evidence from diverse visual and textual sources. Building on this, we propose Vision-DeepResearch, which proposes one new multimodal deep-research paradigm, i.e., performs multi-turn, multi-entity and multi-scale visual and textual search to robustly hit real-world search engines under heavy noise. Our Vision-DeepResearch supports dozens of reasoning steps and hundreds of engine interactions, while internalizing deep-research capabilities into the MLLM via cold-start supervision and RL training, resulting in a strong end-to-end multimodal deep-research MLLM. It substantially outperforming existing multimodal deep-research MLLMs, and workflows built on strong closed-source foundation model such as GPT-5, Gemini-2.5-pro and Claude-4-Sonnet. The code will be released in https://github.com/Osilly/Vision-DeepResearch.