ChatPaper.aiChatPaper

STAR-R1: Raciocínio de Transformação Espacial por meio de Reforço de LLMs Multimodais

STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs

May 21, 2025
Autores: Zongzhao Li, Zongyang Ma, Mingze Li, Songyou Li, Yu Rong, Tingyang Xu, Ziqi Zhang, Deli Zhao, Wenbing Huang
cs.AI

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades notáveis em diversas tarefas, mas ainda ficam significativamente atrás dos humanos em raciocínio espacial. Investigamos essa lacuna por meio do Raciocínio Visual Orientado por Transformações (TVR), uma tarefa desafiadora que requer a identificação de transformações de objetos entre imagens sob diferentes pontos de vista. Enquanto o Ajuste Fino Supervisionado (SFT) tradicional falha em gerar caminhos de raciocínio coerentes em cenários de visão cruzada, o Aprendizado por Reforço (RL) com recompensas esparsas sofre com exploração ineficiente e convergência lenta. Para abordar essas limitações, propomos o STAR-R1, uma estrutura inovadora que integra um paradigma de RL em estágio único com um mecanismo de recompensa refinado especificamente para o TVR. Especificamente, o STAR-R1 recompensa a correção parcial enquanto penaliza a enumeração excessiva e a inação passiva, permitindo uma exploração eficiente e um raciocínio preciso. Avaliações abrangentes demonstram que o STAR-R1 alcança desempenho de ponta em todas as 11 métricas, superando o SFT em 23% em cenários de visão cruzada. Análises adicionais revelam o comportamento antropomórfico do STAR-R1 e destacam sua capacidade única de comparar todos os objetos para melhorar o raciocínio espacial. Nosso trabalho fornece insights críticos para avançar a pesquisa em MLLMs e modelos de raciocínio. Os códigos, pesos do modelo e dados estarão publicamente disponíveis em https://github.com/zongzhao23/STAR-R1.
English
Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities across diverse tasks, yet they lag significantly behind humans in spatial reasoning. We investigate this gap through Transformation-Driven Visual Reasoning (TVR), a challenging task requiring identification of object transformations across images under varying viewpoints. While traditional Supervised Fine-Tuning (SFT) fails to generate coherent reasoning paths in cross-view settings, sparse-reward Reinforcement Learning (RL) suffers from inefficient exploration and slow convergence. To address these limitations, we propose STAR-R1, a novel framework that integrates a single-stage RL paradigm with a fine-grained reward mechanism tailored for TVR. Specifically, STAR-R1 rewards partial correctness while penalizing excessive enumeration and passive inaction, enabling efficient exploration and precise reasoning. Comprehensive evaluations demonstrate that STAR-R1 achieves state-of-the-art performance across all 11 metrics, outperforming SFT by 23% in cross-view scenarios. Further analysis reveals STAR-R1's anthropomorphic behavior and highlights its unique ability to compare all objects for improving spatial reasoning. Our work provides critical insights in advancing the research of MLLMs and reasoning models. The codes, model weights, and data will be publicly available at https://github.com/zongzhao23/STAR-R1.
PDF102December 16, 2025