ChatPaper.aiChatPaper

SenseNOVA-MARS:強化学習によるマルチモーダルエージェント推論・検索機能の強化

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

December 30, 2025
著者: Yong Xien Chng, Tao Hu, Wenwen Tong, Xueheng Li, Jiandong Chen, Haojia Yu, Jiefan Lu, Hewei Guo, Hanming Deng, Chengjun Xie, Gao Huang, Dahua Lin, Lewei Lu
cs.AI

要旨

視覚言語モデル(VLM)はエージェント的な推論によって複雑なタスクを解決できるが、その能力は主にテキスト指向の連鎖的思考や単体のツール呼び出しに限定されている。特に、検索や画像切り抜きといった外部ツールの協調を要する知識集約的で視覚的に複雑なシナリオにおいて、動的なツール操作と連続的な推論をシームレスに組み合わせる人間並みの熟練度を発揮することはできない。本研究では、強化学習(RL)を通じてVLMに視覚的推論とツール使用能力を交差的に付与する新しいマルチモーダルエージェント推論・検索フレームワーク「SenseNova-MARS」を提案する。具体的には、SenseNova-MARSは画像検索、テキスト検索、画像切り抜きツールを動的に統合し、細粒度かつ知識集約的な視覚理解課題に取り組む。RL段階では、訓練の安定性を向上させ、ツール呼び出しと効果的な推論能力を促進するため、バッチ正規化グループシーケンス政策最適化(BN-GSPO)アルゴリズムを開発した。複雑な視覚タスクにおけるエージェント型VLMを包括的に評価するため、高解像度画像と知識集約的・検索指向の質問で構成される初の検索特化ベンチマーク「HR-MMSearch」を導入した。実験により、SenseNova-MARSがオープンソースの検索および細粒度画像理解ベンチマークで最先端の性能を達成することが実証された。特に検索指向ベンチマークでは、SenseNova-MARS-8BはMMSearchで67.84、HR-MMSearchで41.64を記録し、Gemini-3-FlashやGPT-5などのプロプライエタリモデルを凌駕した。SenseNova-MARSは、効果的かつ堅牢なツール使用能力を提供することで、エージェント型VLMの発展に向けた有望な一歩を示す。本研究の推進のため、全てのコード、モデル、データセットを公開予定である。
English
While Vision-Language Models (VLMs) can solve complex tasks through agentic reasoning, their capabilities remain largely constrained to text-oriented chain-of-thought or isolated tool invocation. They fail to exhibit the human-like proficiency required to seamlessly interleave dynamic tool manipulation with continuous reasoning, particularly in knowledge-intensive and visually complex scenarios that demand coordinated external tools such as search and image cropping. In this work, we introduce SenseNova-MARS, a novel Multimodal Agentic Reasoning and Search framework that empowers VLMs with interleaved visual reasoning and tool-use capabilities via reinforcement learning (RL). Specifically, SenseNova-MARS dynamically integrates the image search, text search, and image crop tools to tackle fine-grained and knowledge-intensive visual understanding challenges. In the RL stage, we propose the Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algorithm to improve the training stability and advance the model's ability to invoke tools and reason effectively. To comprehensively evaluate the agentic VLMs on complex visual tasks, we introduce the HR-MMSearch benchmark, the first search-oriented benchmark composed of high-resolution images with knowledge-intensive and search-driven questions. Experiments demonstrate that SenseNova-MARS achieves state-of-the-art performance on open-source search and fine-grained image understanding benchmarks. Specifically, on search-oriented benchmarks, SenseNova-MARS-8B scores 67.84 on MMSearch and 41.64 on HR-MMSearch, surpassing proprietary models such as Gemini-3-Flash and GPT-5. SenseNova-MARS represents a promising step toward agentic VLMs by providing effective and robust tool-use capabilities. To facilitate further research in this field, we will release all code, models, and datasets.
PDF291January 6, 2026