ChatPaper.aiChatPaper

SenseNova-MARS: Stärkung multimodaler agentenbasierter Entscheidungsfindung und Suche durch Reinforcement Learning

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

December 30, 2025
papers.authors: Yong Xien Chng, Tao Hu, Wenwen Tong, Xueheng Li, Jiandong Chen, Haojia Yu, Jiefan Lu, Hewei Guo, Hanming Deng, Chengjun Xie, Gao Huang, Dahua Lin, Lewei Lu
cs.AI

papers.abstract

Während Vision-Language-Modelle (VLMs) komplexe Aufgaben durch agentenbasiertes Reasoning lösen können, bleiben ihre Fähigkeiten weitgehend auf textorientierte Gedankenketten oder isolierten Werkzeugaufruf beschränkt. Es gelingt ihnen nicht, eine menschenähnliche Gewandtheit zu zeigen, um dynamische Werkzeugmanipulation nahtlos mit kontinuierlichem Reasoning zu verflechten, insbesondere in wissensintensiven und visuell komplexen Szenarien, die koordinierte externe Werkzeuge wie Suche und Bildzuschnitt erfordern. In dieser Arbeit stellen wir SenseNova-MARS vor, ein neuartiges Multimodales Agentisches Reasoning- und Such-Framework, das VLMs durch Reinforcement Learning (RL) Fähigkeiten zur verflochtenen visuellen Schlussfolgerung und Werkzeugnutzung verleiht. Konkret integriert SenseNova-MARS dynamisch die Werkzeuge Bildsuche, Textsuche und Bildzuschnitt, um feinkörnige und wissensintensive Herausforderungen des visuellen Verstehens zu bewältigen. In der RL-Phase schlagen wir den Batch-Normalized Group Sequence Policy Optimization (BN-GSPO)-Algorithmus vor, um die Trainingsstabilität zu verbessern und die Fähigkeit des Modells zu fördern, Werkzeuge effektiv aufzurufen und Schlussfolgerungen zu ziehen. Um agentische VLMs umfassend bei komplexen visuellen Aufgaben zu evaluieren, führen wir den HR-MMSearch-Benchmark ein, den ersten suchorientierten Benchmark, der aus hochauflösenden Bildern mit wissensintensiven und suchbasierten Fragen besteht. Experimente zeigen, dass SenseNova-MARS state-of-the-art Leistung auf quelloffenen Such- und feinkörnigen Bildverständnis-Benchmarks erzielt. Insbesondere erzielt SenseNova-MARS-8B auf suchorientierten Benchmarks 67,84 Punkte bei MMSearch und 41,64 bei HR-MMSearch und übertrifft damit proprietäre Modelle wie Gemini-3-Flash und GPT-5. SenseNova-MARS stellt einen vielversprechenden Schritt in Richtung agentischer VLMs dar, indem es effektive und robuste Werkzeugnutzungsfähigkeiten bereitstellt. Um die weitere Forschung auf diesem Gebiet zu erleichtern, werden wir allen Code, Modelle und Datensätze veröffentlichen.
English
While Vision-Language Models (VLMs) can solve complex tasks through agentic reasoning, their capabilities remain largely constrained to text-oriented chain-of-thought or isolated tool invocation. They fail to exhibit the human-like proficiency required to seamlessly interleave dynamic tool manipulation with continuous reasoning, particularly in knowledge-intensive and visually complex scenarios that demand coordinated external tools such as search and image cropping. In this work, we introduce SenseNova-MARS, a novel Multimodal Agentic Reasoning and Search framework that empowers VLMs with interleaved visual reasoning and tool-use capabilities via reinforcement learning (RL). Specifically, SenseNova-MARS dynamically integrates the image search, text search, and image crop tools to tackle fine-grained and knowledge-intensive visual understanding challenges. In the RL stage, we propose the Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algorithm to improve the training stability and advance the model's ability to invoke tools and reason effectively. To comprehensively evaluate the agentic VLMs on complex visual tasks, we introduce the HR-MMSearch benchmark, the first search-oriented benchmark composed of high-resolution images with knowledge-intensive and search-driven questions. Experiments demonstrate that SenseNova-MARS achieves state-of-the-art performance on open-source search and fine-grained image understanding benchmarks. Specifically, on search-oriented benchmarks, SenseNova-MARS-8B scores 67.84 on MMSearch and 41.64 on HR-MMSearch, surpassing proprietary models such as Gemini-3-Flash and GPT-5. SenseNova-MARS represents a promising step toward agentic VLMs by providing effective and robust tool-use capabilities. To facilitate further research in this field, we will release all code, models, and datasets.
PDF291January 6, 2026