ChatPaper.aiChatPaper

SenseNova-MARS: Расширение возможностей мультимодального агентного мышления и поиска с помощью обучения с подкреплением

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

December 30, 2025
Авторы: Yong Xien Chng, Tao Hu, Wenwen Tong, Xueheng Li, Jiandong Chen, Haojia Yu, Jiefan Lu, Hewei Guo, Hanming Deng, Chengjun Xie, Gao Huang, Dahua Lin, Lewei Lu
cs.AI

Аннотация

Хотя модели «визуальный язык» (Vision-Language Models, VLM) способны решать сложные задачи посредством агентного рассуждения, их возможности в значительной степени ограничены тексто-ориентированными цепочками рассуждений (chain-of-thought) или изолированным вызовом инструментов. Они не демонстрируют свойственного человеку умения бесшовно чередовать динамическое манипулирование инструментами с непрерывным процессом рассуждения, особенно в сценариях, требующих интенсивной работы со знаниями и анализа сложных визуальных сцен, где необходима координация внешних инструментов, таких как поиск и обрезка изображений. В данной работе мы представляем SenseNova-MARS — новую мультимодальную структуру агентного рассуждения и поиска (Multimodal Agentic Reasoning and Search), которая наделяет VLM способностью к чередующемуся визуальному рассуждению и использованию инструментов с помощью обучения с подкреплением (Reinforcement Learning, RL). В частности, SenseNova-MARS динамически интегрирует инструменты поиска изображений, текстового поиска и обрезки изображений для решения задач тонкого и насыщенного знаниями визуального понимания. На этапе RL мы предлагаем алгоритм Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) для повышения стабильности обучения и развития способности модели эффективно вызывать инструменты и рассуждать. Для всесторонней оценки агентных VLM на сложных визуальных задачах мы представляем бенчмарк HR-MMSearch — первый поисково-ориентированный бенчмарк, состоящий из изображений высокого разрешения и вопросов, насыщенных знаниями и требующих поиска. Эксперименты показывают, что SenseNova-MARS демонстрирует наилучшую производительность на открытых бенчмарках поиска и тонкого понимания изображений. В частности, на поисково-ориентированных бенчмарках SenseNova-MARS-8B набирает 67.84 балла на MMSearch и 41.64 балла на HR-MMSearch, превосходя проприетарные модели, такие как Gemini-3-Flash и GPT-5. SenseNova-MARS представляет собой многообещающий шаг к созданию агентных VLM, обеспечивая эффективные и надежные возможности по использованию инструментов. Для содействия дальнейшим исследованиям в этой области мы опубликуем весь код, модели и наборы данных.
English
While Vision-Language Models (VLMs) can solve complex tasks through agentic reasoning, their capabilities remain largely constrained to text-oriented chain-of-thought or isolated tool invocation. They fail to exhibit the human-like proficiency required to seamlessly interleave dynamic tool manipulation with continuous reasoning, particularly in knowledge-intensive and visually complex scenarios that demand coordinated external tools such as search and image cropping. In this work, we introduce SenseNova-MARS, a novel Multimodal Agentic Reasoning and Search framework that empowers VLMs with interleaved visual reasoning and tool-use capabilities via reinforcement learning (RL). Specifically, SenseNova-MARS dynamically integrates the image search, text search, and image crop tools to tackle fine-grained and knowledge-intensive visual understanding challenges. In the RL stage, we propose the Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algorithm to improve the training stability and advance the model's ability to invoke tools and reason effectively. To comprehensively evaluate the agentic VLMs on complex visual tasks, we introduce the HR-MMSearch benchmark, the first search-oriented benchmark composed of high-resolution images with knowledge-intensive and search-driven questions. Experiments demonstrate that SenseNova-MARS achieves state-of-the-art performance on open-source search and fine-grained image understanding benchmarks. Specifically, on search-oriented benchmarks, SenseNova-MARS-8B scores 67.84 on MMSearch and 41.64 on HR-MMSearch, surpassing proprietary models such as Gemini-3-Flash and GPT-5. SenseNova-MARS represents a promising step toward agentic VLMs by providing effective and robust tool-use capabilities. To facilitate further research in this field, we will release all code, models, and datasets.
PDF291January 6, 2026