DeepMMSearch-R1: Расширение возможностей мультимодальных LLM для мультимодального веб-поиска
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
October 14, 2025
Авторы: Kartik Narayan, Yang Xu, Tian Cao, Kavya Nerella, Vishal M. Patel, Navid Shiee, Peter Grasch, Chao Jia, Yinfei Yang, Zhe Gan
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLMs) в реальных приложениях требуют доступа к внешним источникам знаний и должны оставаться отзывчивыми к динамической и постоянно меняющейся информации реального мира, чтобы эффективно отвечать на информационные и сложные запросы пользователей. Существующие подходы, такие как методы генерации с использованием поиска (RAG), поисковые агенты и MLLMs, оснащенные поисковыми функциями, часто страдают от жестких конвейеров, избыточных поисковых запросов и плохо сформулированных поисковых запросов, что приводит к неэффективности и неоптимальным результатам. Для решения этих ограничений мы представляем DeepMMSearch-R1, первую мультимодальную языковую модель, способную выполнять поиск в интернете по запросу, проводить многошаговые поиски и динамически формировать запросы для инструментов поиска как изображений, так и текста. В частности, DeepMMSearch-R1 может инициировать поиск в интернете на основе релевантных фрагментов входного изображения, что делает поиск изображений более эффективным, и итеративно адаптировать текстовые поисковые запросы на основе полученной информации, что позволяет модели саморефлексию и самокоррекцию. Наш подход основан на двухэтапном конвейере обучения: начальной фазе контролируемого тонкого настройки, за которой следует оптимизация с использованием онлайн-обучения с подкреплением. Для обучения мы представляем DeepMMSearchVQA, новый мультимодальный набор данных для вопросов и ответов, созданный с помощью автоматизированного конвейера, интегрированного с реальной информацией из поисковых инструментов. Этот набор данных содержит разнообразные многошаговые запросы, которые интегрируют текстовую и визуальную информацию, обучая модель, когда искать, что искать, какой инструмент поиска использовать и как рассуждать на основе полученной информации. Мы проводим обширные эксперименты на ряде сложных бенчмарков, чтобы продемонстрировать превосходство нашего подхода. Наконец, мы анализируем результаты и предоставляем ценные инсайты для продвижения мультимодального поиска в интернете.
English
Multimodal Large Language Models (MLLMs) in real-world applications require
access to external knowledge sources and must remain responsive to the dynamic
and ever-changing real-world information in order to address
information-seeking and knowledge-intensive user queries. Existing approaches,
such as retrieval augmented generation (RAG) methods, search agents, and search
equipped MLLMs, often suffer from rigid pipelines, excessive search calls, and
poorly constructed search queries, which result in inefficiencies and
suboptimal outcomes. To address these limitations, we present DeepMMSearch-R1,
the first multimodal LLM capable of performing on-demand, multi-turn web
searches and dynamically crafting queries for both image and text search tools.
Specifically, DeepMMSearch-R1 can initiate web searches based on relevant crops
of the input image making the image search more effective, and can iteratively
adapt text search queries based on retrieved information, thereby enabling
self-reflection and self-correction. Our approach relies on a two-stage
training pipeline: a cold start supervised finetuning phase followed by an
online reinforcement learning optimization. For training, we introduce
DeepMMSearchVQA, a novel multimodal VQA dataset created through an automated
pipeline intermixed with real-world information from web search tools. This
dataset contains diverse, multi-hop queries that integrate textual and visual
information, teaching the model when to search, what to search for, which
search tool to use and how to reason over the retrieved information. We conduct
extensive experiments across a range of knowledge-intensive benchmarks to
demonstrate the superiority of our approach. Finally, we analyze the results
and provide insights that are valuable for advancing multimodal web-search.