SenseNova-MARS: Fortalecendo o Raciocínio e a Busca Agente Multimodal por Meio do Aprendizado por Reforço

Resumo

Embora os Modelos de Visão e Linguagem (VLMs) possam resolver tarefas complexas por meio de raciocínio agentivo, suas capacidades permanecem amplamente limitadas a cadeias de raciocínio orientadas a texto ou à invocação isolada de ferramentas. Eles não conseguem exibir a proficiência semelhante à humana necessária para intercalar perfeitamente a manipulação dinâmica de ferramentas com o raciocínio contínuo, particularmente em cenários visualmente complexos e intensivos em conhecimento que exigem ferramentas externas coordenadas, como pesquisa e recorte de imagens. Neste trabalho, introduzimos o SenseNova-MARS, uma nova estrutura de Raciocínio e Pesquisa Agentivo Multimodal (Multimodal Agentic Reasoning and Search) que capacita os VLMs com capacidades intercaladas de raciocínio visual e uso de ferramentas por meio de aprendizagem por reforço (RL). Especificamente, o SenseNova-MARS integra dinamicamente as ferramentas de pesquisa de imagem, pesquisa de texto e recorte de imagem para enfrentar desafios de compreensão visual de granularidade fina e intensivos em conhecimento. Na fase de RL, propomos o algoritmo BN-GSPO (Batch-Normalized Group Sequence Policy Optimization) para melhorar a estabilidade do treinamento e avançar a capacidade do modelo de invocar ferramentas e raciocinar de forma eficaz. Para avaliar abrangentemente os VLMs agentivos em tarefas visuais complexas, introduzimos o benchmark HR-MMSearch, o primeiro benchmark orientado à pesquisa composto por imagens de alta resolução com perguntas intensivas em conhecimento e orientadas por busca. Os experimentos demonstram que o SenseNova-MARS alcança um desempenho state-of-the-art em benchmarks de pesquisa de código aberto e de compreensão de imagem de granularidade fina. Especificamente, em benchmarks orientados à pesquisa, o SenseNova-MARS-8B pontua 67,84 no MMSearch e 41,64 no HR-MMSearch, superando modelos proprietários como o Gemini-3-Flash e o GPT-5. O SenseNova-MARS representa um passo promissor em direção aos VLMs agentivos, fornecendo capacidades de uso de ferramentas eficazes e robustas. Para facilitar pesquisas futuras nesta área, disponibilizaremos todo o código, modelos e conjuntos de dados.

English

While Vision-Language Models (VLMs) can solve complex tasks through agentic reasoning, their capabilities remain largely constrained to text-oriented chain-of-thought or isolated tool invocation. They fail to exhibit the human-like proficiency required to seamlessly interleave dynamic tool manipulation with continuous reasoning, particularly in knowledge-intensive and visually complex scenarios that demand coordinated external tools such as search and image cropping. In this work, we introduce SenseNova-MARS, a novel Multimodal Agentic Reasoning and Search framework that empowers VLMs with interleaved visual reasoning and tool-use capabilities via reinforcement learning (RL). Specifically, SenseNova-MARS dynamically integrates the image search, text search, and image crop tools to tackle fine-grained and knowledge-intensive visual understanding challenges. In the RL stage, we propose the Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algorithm to improve the training stability and advance the model's ability to invoke tools and reason effectively. To comprehensively evaluate the agentic VLMs on complex visual tasks, we introduce the HR-MMSearch benchmark, the first search-oriented benchmark composed of high-resolution images with knowledge-intensive and search-driven questions. Experiments demonstrate that SenseNova-MARS achieves state-of-the-art performance on open-source search and fine-grained image understanding benchmarks. Specifically, on search-oriented benchmarks, SenseNova-MARS-8B scores 67.84 on MMSearch and 41.64 on HR-MMSearch, surpassing proprietary models such as Gemini-3-Flash and GPT-5. SenseNova-MARS represents a promising step toward agentic VLMs by providing effective and robust tool-use capabilities. To facilitate further research in this field, we will release all code, models, and datasets.

SenseNova-MARS: Fortalecendo o Raciocínio e a Busca Agente Multimodal por Meio do Aprendizado por Reforço

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

Resumo

Support