ChatPaper.aiChatPaper

SenseNova-MARS: 강화 학습 기반 멀티모달 에이전트 추론 및 검색 역량 강화

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

December 30, 2025
저자: Yong Xien Chng, Tao Hu, Wenwen Tong, Xueheng Li, Jiandong Chen, Haojia Yu, Jiefan Lu, Hewei Guo, Hanming Deng, Chengjun Xie, Gao Huang, Dahua Lin, Lewei Lu
cs.AI

초록

비전-언어 모델(VLM)은 에이전트 기반 추론을 통해 복잡한 작업을 해결할 수 있지만, 그 능력은 여전히 텍스트 중심의 사고 연쇄 또는 단일 도구 호출에 크게 제한됩니다. 특히 검색 및 이미지 크롭과 같은 조정된 외부 도구가 필요한 지식 집약적이고 시각적으로 복잡한 시나리오에서, 동적인 도구 조작과 지속적인 추론을 인간처럼 원활하게 결합하는 능숙함을 보여주지 못합니다. 본 연구에서는 강화 학습(RL)을 통해 VLM에 인터리빙된 시각 추론 및 도구 사용 능력을 부여하는 새로운 멀티모달 에이전트 추론 및 검색 프레임워크인 SenseNova-MARS를 소개합니다. 구체적으로, SenseNova-MARS는 이미지 검색, 텍스트 검색, 이미지 크롭 도구를 동적으로 통합하여 세분화되고 지식 집약적인 시각 이해 과제를 해결합니다. RL 단계에서는 훈련 안정성을 향상시키고 모델의 도구 호출 및 효과적 추론 능력을 발전시키기 위해 Batch-Normalized Group Sequence Policy Optimization(BN-GSPO) 알고리즘을 제안합니다. 복잡한 시각 작업에 대한 에이전트 VLM을 종합적으로 평가하기 위해, 고해상도 이미지와 지식 집약적이며 검색 중심의 질문으로 구성된 최초의 검색 지향 벤치마크인 HR-MMSearch 벤치마크를 도입했습니다. 실험 결과, SenseNova-MARS는 오픈소스 검색 및 세분화된 이미지 이해 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 구체적으로, 검색 지향 벤치마크에서 SenseNova-MARS-8B는 MMSearch에서 67.84점, HR-MMSearch에서 41.64점을 기록하여 Gemini-3-Flash 및 GPT-5와 같은 독점 모델을 능가했습니다. SenseNova-MARS는 효과적이고 강력한 도구 사용 능력을 제공함으로써 에이전트 VLM 발전을 위한 유망한 단계를 나타냅니다. 해당 분야의 추가 연구를 촉진하기 위해 모든 코드, 모델 및 데이터셋을 공개할 예정입니다.
English
While Vision-Language Models (VLMs) can solve complex tasks through agentic reasoning, their capabilities remain largely constrained to text-oriented chain-of-thought or isolated tool invocation. They fail to exhibit the human-like proficiency required to seamlessly interleave dynamic tool manipulation with continuous reasoning, particularly in knowledge-intensive and visually complex scenarios that demand coordinated external tools such as search and image cropping. In this work, we introduce SenseNova-MARS, a novel Multimodal Agentic Reasoning and Search framework that empowers VLMs with interleaved visual reasoning and tool-use capabilities via reinforcement learning (RL). Specifically, SenseNova-MARS dynamically integrates the image search, text search, and image crop tools to tackle fine-grained and knowledge-intensive visual understanding challenges. In the RL stage, we propose the Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algorithm to improve the training stability and advance the model's ability to invoke tools and reason effectively. To comprehensively evaluate the agentic VLMs on complex visual tasks, we introduce the HR-MMSearch benchmark, the first search-oriented benchmark composed of high-resolution images with knowledge-intensive and search-driven questions. Experiments demonstrate that SenseNova-MARS achieves state-of-the-art performance on open-source search and fine-grained image understanding benchmarks. Specifically, on search-oriented benchmarks, SenseNova-MARS-8B scores 67.84 on MMSearch and 41.64 on HR-MMSearch, surpassing proprietary models such as Gemini-3-Flash and GPT-5. SenseNova-MARS represents a promising step toward agentic VLMs by providing effective and robust tool-use capabilities. To facilitate further research in this field, we will release all code, models, and datasets.
PDF291January 6, 2026