ChatPaper.aiChatPaper

SenseNova-MARS:通过强化学习赋能多模态代理推理与搜索

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

December 30, 2025
Autori: Yong Xien Chng, Tao Hu, Wenwen Tong, Xueheng Li, Jiandong Chen, Haojia Yu, Jiefan Lu, Hewei Guo, Hanming Deng, Chengjun Xie, Gao Huang, Dahua Lin, Lewei Lu
cs.AI

Abstract

Sebbene i Modelli Visione-Linguaggio (VLM) possano risolvere compiti complessi mediante ragionamento agentivo, le loro capacità rimangono largamente confinate a catene di pensiero orientate al testo o a invocazioni isolate di strumenti. Essi non riescono a mostrare la competenza simile a quella umana necessaria per intervallare in modo fluido la manipolazione dinamica di strumenti con un ragionamento continuo, specialmente in scenari ad alta intensità conoscitiva e complessità visiva che richiedono strumenti esterni coordinati come la ricerca e il ritaglio di immagini. In questo lavoro, introduciamo SenseNova-MARS, un nuovo framework di Ragionamento e Ricerca Agentivo Multimodale che potenzia i VLM con capacità di ragionamento visivo e uso di strumenti intervallati, tramite apprendimento per rinforzo (RL). Nello specifico, SenseNova-MARS integra dinamicamente gli strumenti di ricerca immagini, ricerca testuale e ritaglio immagini per affrontare sfide di comprensione visiva granulari e ad alta intensità conoscitiva. Nella fase di RL, proponiamo l'algoritmo di Ottimizzazione della Politica di Sequenza di Gruppo con Normalizzazione a Lotti (BN-GSPO) per migliorare la stabilità dell'addestramento e potenziare l'abilità del modello di invocare strumenti e ragionare efficacemente. Per valutare in modo completo i VLM agentivi su compiti visivi complessi, introduciamo il benchmark HR-MMSearch, il primo benchmark orientato alla ricerca composto da immagini ad alta risoluzione con domande ad alta intensità conoscitiva e guidate dalla ricerca. Gli esperimenti dimostrano che SenseNova-MARS raggiunge prestazioni all'avanguardia sui benchmark open-source di ricerca e comprensione fine delle immagini. Nello specifico, su benchmark orientati alla ricerca, SenseNova-MARS-8B ottiene un punteggio di 67.84 su MMSearch e 41.64 su HR-MMSearch, superando modelli proprietari come Gemini-3-Flash e GPT-5. SenseNova-MARS rappresenta un passo promettente verso VLM agentivi, fornendo capacità di uso degli strumenti efficaci e robuste. Per facilitare ulteriori ricerche in questo campo, renderemo disponibili tutto il codice, i modelli e i dataset.
English
While Vision-Language Models (VLMs) can solve complex tasks through agentic reasoning, their capabilities remain largely constrained to text-oriented chain-of-thought or isolated tool invocation. They fail to exhibit the human-like proficiency required to seamlessly interleave dynamic tool manipulation with continuous reasoning, particularly in knowledge-intensive and visually complex scenarios that demand coordinated external tools such as search and image cropping. In this work, we introduce SenseNova-MARS, a novel Multimodal Agentic Reasoning and Search framework that empowers VLMs with interleaved visual reasoning and tool-use capabilities via reinforcement learning (RL). Specifically, SenseNova-MARS dynamically integrates the image search, text search, and image crop tools to tackle fine-grained and knowledge-intensive visual understanding challenges. In the RL stage, we propose the Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algorithm to improve the training stability and advance the model's ability to invoke tools and reason effectively. To comprehensively evaluate the agentic VLMs on complex visual tasks, we introduce the HR-MMSearch benchmark, the first search-oriented benchmark composed of high-resolution images with knowledge-intensive and search-driven questions. Experiments demonstrate that SenseNova-MARS achieves state-of-the-art performance on open-source search and fine-grained image understanding benchmarks. Specifically, on search-oriented benchmarks, SenseNova-MARS-8B scores 67.84 on MMSearch and 41.64 on HR-MMSearch, surpassing proprietary models such as Gemini-3-Flash and GPT-5. SenseNova-MARS represents a promising step toward agentic VLMs by providing effective and robust tool-use capabilities. To facilitate further research in this field, we will release all code, models, and datasets.
PDF353February 8, 2026