SenseNova-MARS: Potenciando el Razonamiento y Búsqueda Agéntica Multimodal mediante Aprendizaje por Refuerzo
SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning
December 30, 2025
Autores: Yong Xien Chng, Tao Hu, Wenwen Tong, Xueheng Li, Jiandong Chen, Haojia Yu, Jiefan Lu, Hewei Guo, Hanming Deng, Chengjun Xie, Gao Huang, Dahua Lin, Lewei Lu
cs.AI
Resumen
Si bien los Modelos de Visión y Lenguaje (VLMs) pueden resolver tareas complejas mediante razonamiento agentivo, sus capacidades siguen estando mayormente limitadas a cadenas de pensamiento orientadas a texto o a la invocación aislada de herramientas. No logran exhibir la proficiencia similar a la humana necesaria para entrelazar de manera fluida la manipulación dinámica de herramientas con el razonamiento continuo, particularmente en escenarios intensivos en conocimiento y visualmente complejos que demandan herramientas externas coordinadas, como la búsqueda y el recorte de imágenes. En este trabajo, presentamos SenseNova-MARS, un novedoso marco de trabajo de Razonamiento Agentivo Multimodal y Búsqueda (Multimodal Agentic Reasoning and Search) que dota a los VLMs de capacidades entrelazadas de razonamiento visual y uso de herramientas mediante aprendizaje por refuerzo (RL). Específicamente, SenseNova-MARS integra dinámicamente las herramientas de búsqueda de imágenes, búsqueda de texto y recorte de imágenes para abordar desafíos de comprensión visual de grano fino e intensivos en conocimiento. En la etapa de RL, proponemos el algoritmo de Optimización de Políticas de Secuencia Grupal con Normalización por Lotes (Batch-Normalized Group Sequence Policy Optimization, BN-GSPO) para mejorar la estabilidad del entrenamiento y potenciar la capacidad del modelo para invocar herramientas y razonar de manera efectiva. Para evaluar exhaustivamente a los VLMs agentivos en tareas visuales complejas, presentamos el benchmark HR-MMSearch, el primer benchmark orientado a la búsqueda compuesto por imágenes de alta resolución con preguntas intensivas en conocimiento y orientadas a la búsqueda. Los experimentos demuestran que SenseNova-MARS logra un rendimiento state-of-the-art en benchmarks de código abierto de búsqueda y comprensión de imágenes de grano fino. Específicamente, en benchmarks orientados a la búsqueda, SenseNova-MARS-8B obtiene una puntuación de 67.84 en MMSearch y 41.64 en HR-MMSearch, superando a modelos propietarios como Gemini-3-Flash y GPT-5. SenseNova-MARS representa un paso prometedor hacia los VLMs agentivos al proporcionar capacidades de uso de herramientas efectivas y robustas. Para facilitar futuras investigaciones en este campo, liberaremos todo el código, modelos y conjuntos de datos.
English
While Vision-Language Models (VLMs) can solve complex tasks through agentic reasoning, their capabilities remain largely constrained to text-oriented chain-of-thought or isolated tool invocation. They fail to exhibit the human-like proficiency required to seamlessly interleave dynamic tool manipulation with continuous reasoning, particularly in knowledge-intensive and visually complex scenarios that demand coordinated external tools such as search and image cropping. In this work, we introduce SenseNova-MARS, a novel Multimodal Agentic Reasoning and Search framework that empowers VLMs with interleaved visual reasoning and tool-use capabilities via reinforcement learning (RL). Specifically, SenseNova-MARS dynamically integrates the image search, text search, and image crop tools to tackle fine-grained and knowledge-intensive visual understanding challenges. In the RL stage, we propose the Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algorithm to improve the training stability and advance the model's ability to invoke tools and reason effectively. To comprehensively evaluate the agentic VLMs on complex visual tasks, we introduce the HR-MMSearch benchmark, the first search-oriented benchmark composed of high-resolution images with knowledge-intensive and search-driven questions. Experiments demonstrate that SenseNova-MARS achieves state-of-the-art performance on open-source search and fine-grained image understanding benchmarks. Specifically, on search-oriented benchmarks, SenseNova-MARS-8B scores 67.84 on MMSearch and 41.64 on HR-MMSearch, surpassing proprietary models such as Gemini-3-Flash and GPT-5. SenseNova-MARS represents a promising step toward agentic VLMs by providing effective and robust tool-use capabilities. To facilitate further research in this field, we will release all code, models, and datasets.