ChatPaper.aiChatPaper

SenseNova-MARS: Versterking van multimodale agent-gestuurd redeneren en zoeken via reinforcement learning

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

December 30, 2025
Auteurs: Yong Xien Chng, Tao Hu, Wenwen Tong, Xueheng Li, Jiandong Chen, Haojia Yu, Jiefan Lu, Hewei Guo, Hanming Deng, Chengjun Xie, Gao Huang, Dahua Lin, Lewei Lu
cs.AI

Samenvatting

Hoewel Vision-Language Models (VLMs) complexe taken kunnen oplossen via agent-gebaseerd redeneren, blijven hun capaciteiten grotendeels beperkt tot tekstgeoriënteerde chain-of-thought of geïsoleerde toolaanroepingen. Ze vertonen niet de mensachtige bekwaamheid die nodig is om dynamische toolmanipulatie naadloos te verweven met continu redeneren, vooral in kennisintensieve en visueel complexe scenario's die gecoördineerd gebruik van externe tools zoals zoekfuncties en beeldbijsnijden vereisen. In dit werk introduceren we SenseNova-MARS, een nieuw Multimodal Agentic Reasoning and Search raamwerk dat VLMs versterkt met verweven visueel redeneren en toolgebruikcapaciteiten via reinforcement learning (RL). Specifiek integreert SenseNova-MARS dynamisch de beeldzoek-, tekstzoek- en beeldbijsnijd-tools om fijnmazige en kennisintensieve visuele begripsuitdagingen aan te pakken. In de RL-fase stellen we het Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algoritme voor om de trainingsstabiliteit te verbeteren en het vermogen van het model om tools effectief aan te roepen en te redeneren te bevorderen. Om agentische VLMs uitgebreid te evalueren op complexe visuele taken, introduceren we de HR-MMSearch benchmark, de eerste zoekgeoriënteerde benchmark bestaande uit hoogwaardige afbeeldingen met kennisintensieve en zoekgedreven vragen. Experimenten tonen aan dat SenseNova-MARS state-of-the-art prestaties behaalt op open-source zoek- en fijnmazige beeldbegrip benchmarks. Specifiek scoort SenseNova-MARS-8B op zoekgeoriënteerde benchmarks 67.84 op MMSearch en 41.64 op HR-MMSearch, waarmee het propriëtaire modellen zoals Gemini-3-Flash en GPT-5 overtreft. SenseNova-MARS vertegenwoordigt een veelbelovende stap richting agentische VLMs door effectieve en robuuste toolgebruikcapaciteiten te bieden. Om verder onderzoek op dit gebied te vergemakkelijken, zullen we alle code, modellen en datasets vrijgeven.
English
While Vision-Language Models (VLMs) can solve complex tasks through agentic reasoning, their capabilities remain largely constrained to text-oriented chain-of-thought or isolated tool invocation. They fail to exhibit the human-like proficiency required to seamlessly interleave dynamic tool manipulation with continuous reasoning, particularly in knowledge-intensive and visually complex scenarios that demand coordinated external tools such as search and image cropping. In this work, we introduce SenseNova-MARS, a novel Multimodal Agentic Reasoning and Search framework that empowers VLMs with interleaved visual reasoning and tool-use capabilities via reinforcement learning (RL). Specifically, SenseNova-MARS dynamically integrates the image search, text search, and image crop tools to tackle fine-grained and knowledge-intensive visual understanding challenges. In the RL stage, we propose the Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algorithm to improve the training stability and advance the model's ability to invoke tools and reason effectively. To comprehensively evaluate the agentic VLMs on complex visual tasks, we introduce the HR-MMSearch benchmark, the first search-oriented benchmark composed of high-resolution images with knowledge-intensive and search-driven questions. Experiments demonstrate that SenseNova-MARS achieves state-of-the-art performance on open-source search and fine-grained image understanding benchmarks. Specifically, on search-oriented benchmarks, SenseNova-MARS-8B scores 67.84 on MMSearch and 41.64 on HR-MMSearch, surpassing proprietary models such as Gemini-3-Flash and GPT-5. SenseNova-MARS represents a promising step toward agentic VLMs by providing effective and robust tool-use capabilities. To facilitate further research in this field, we will release all code, models, and datasets.
PDF291January 6, 2026