SenseNova-MARS : Renforcer le raisonnement et la recherche agentifs multimodaux par apprentissage par renforcement
SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning
December 30, 2025
papers.authors: Yong Xien Chng, Tao Hu, Wenwen Tong, Xueheng Li, Jiandong Chen, Haojia Yu, Jiefan Lu, Hewei Guo, Hanming Deng, Chengjun Xie, Gao Huang, Dahua Lin, Lewei Lu
cs.AI
papers.abstract
Bien que les modèles vision-langage (VLM) puissent résoudre des tâches complexes via un raisonnement agentique, leurs capacités restent largement limitées à des chaînes de réflexion orientées texte ou à des invocations d'outils isolées. Ils ne parviennent pas à démontrer la compétence humaine nécessaire pour entrelacer de manière transparente la manipulation dynamique d'outils avec un raisonnement continu, en particulier dans des scénarios riches en connaissances et visuellement complexes qui exigent l'utilisation coordonnée d'outils externes tels que la recherche et le recadrage d'images. Dans ce travail, nous présentons SenseNova-MARS, un nouveau cadre de Raisonnement Agentique et de Recherche Multimodale qui dote les VLM de capacités entrelacées de raisonnement visuel et d'utilisation d'outils via l'apprentissage par renforcement (RL). Concrètement, SenseNova-MARS intègre dynamiquement les outils de recherche d'images, de recherche textuelle et de recadrage d'images pour relever des défis de compréhension visuelle fine et riche en connaissances. Lors de l'étape de RL, nous proposons l'algorithme d'Optimisation de Politique de Séquence de Groupe avec Normalisation par Lot (BN-GSPO) pour améliorer la stabilité de l'entraînement et renforcer la capacité du modèle à invoquer des outils et à raisonner efficacement. Pour évaluer de manière exhaustive les VLM agentiques sur des tâches visuelles complexes, nous introduisons le benchmark HR-MMSearch, le premier benchmark orienté recherche composé d'images haute résolution avec des questions riches en connaissances et pilotées par la recherche. Les expériences démontrent que SenseNova-MARS atteint des performances de pointe sur les benchmarks open-source de recherche et de compréhension fine d'images. Plus précisément, sur les benchmarks orientés recherche, SenseNova-MARS-8B obtient un score de 67,84 sur MMSearch et 41,64 sur HR-MMSearch, surpassant des modèles propriétaires tels que Gemini-3-Flash et GPT-5. SenseNova-MARS représente une étape prometteuse vers les VLM agentiques en fournissant des capacités d'utilisation d'outils efficaces et robustes. Pour faciliter les recherches futures dans ce domaine, nous publierons l'intégralité du code, des modèles et des jeux de données.
English
While Vision-Language Models (VLMs) can solve complex tasks through agentic reasoning, their capabilities remain largely constrained to text-oriented chain-of-thought or isolated tool invocation. They fail to exhibit the human-like proficiency required to seamlessly interleave dynamic tool manipulation with continuous reasoning, particularly in knowledge-intensive and visually complex scenarios that demand coordinated external tools such as search and image cropping. In this work, we introduce SenseNova-MARS, a novel Multimodal Agentic Reasoning and Search framework that empowers VLMs with interleaved visual reasoning and tool-use capabilities via reinforcement learning (RL). Specifically, SenseNova-MARS dynamically integrates the image search, text search, and image crop tools to tackle fine-grained and knowledge-intensive visual understanding challenges. In the RL stage, we propose the Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algorithm to improve the training stability and advance the model's ability to invoke tools and reason effectively. To comprehensively evaluate the agentic VLMs on complex visual tasks, we introduce the HR-MMSearch benchmark, the first search-oriented benchmark composed of high-resolution images with knowledge-intensive and search-driven questions. Experiments demonstrate that SenseNova-MARS achieves state-of-the-art performance on open-source search and fine-grained image understanding benchmarks. Specifically, on search-oriented benchmarks, SenseNova-MARS-8B scores 67.84 on MMSearch and 41.64 on HR-MMSearch, surpassing proprietary models such as Gemini-3-Flash and GPT-5. SenseNova-MARS represents a promising step toward agentic VLMs by providing effective and robust tool-use capabilities. To facilitate further research in this field, we will release all code, models, and datasets.