STAR-R1: Raciocínio de Transformação Espacial por meio de Reforço de LLMs Multimodais
STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs
May 21, 2025
Autores: Zongzhao Li, Zongyang Ma, Mingze Li, Songyou Li, Yu Rong, Tingyang Xu, Ziqi Zhang, Deli Zhao, Wenbing Huang
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades notáveis em diversas tarefas, mas ainda ficam significativamente atrás dos humanos em raciocínio espacial. Investigamos essa lacuna por meio do Raciocínio Visual Orientado por Transformações (TVR), uma tarefa desafiadora que requer a identificação de transformações de objetos entre imagens sob diferentes pontos de vista. Enquanto o Ajuste Fino Supervisionado (SFT) tradicional falha em gerar caminhos de raciocínio coerentes em cenários de visão cruzada, o Aprendizado por Reforço (RL) com recompensas esparsas sofre com exploração ineficiente e convergência lenta. Para abordar essas limitações, propomos o STAR-R1, uma estrutura inovadora que integra um paradigma de RL em estágio único com um mecanismo de recompensa refinado especificamente para o TVR. Especificamente, o STAR-R1 recompensa a correção parcial enquanto penaliza a enumeração excessiva e a inação passiva, permitindo uma exploração eficiente e um raciocínio preciso. Avaliações abrangentes demonstram que o STAR-R1 alcança desempenho de ponta em todas as 11 métricas, superando o SFT em 23% em cenários de visão cruzada. Análises adicionais revelam o comportamento antropomórfico do STAR-R1 e destacam sua capacidade única de comparar todos os objetos para melhorar o raciocínio espacial. Nosso trabalho fornece insights críticos para avançar a pesquisa em MLLMs e modelos de raciocínio. Os códigos, pesos do modelo e dados estarão publicamente disponíveis em https://github.com/zongzhao23/STAR-R1.
English
Multimodal Large Language Models (MLLMs) have demonstrated remarkable
capabilities across diverse tasks, yet they lag significantly behind humans in
spatial reasoning. We investigate this gap through Transformation-Driven Visual
Reasoning (TVR), a challenging task requiring identification of object
transformations across images under varying viewpoints. While traditional
Supervised Fine-Tuning (SFT) fails to generate coherent reasoning paths in
cross-view settings, sparse-reward Reinforcement Learning (RL) suffers from
inefficient exploration and slow convergence. To address these limitations, we
propose STAR-R1, a novel framework that integrates a single-stage RL paradigm
with a fine-grained reward mechanism tailored for TVR. Specifically, STAR-R1
rewards partial correctness while penalizing excessive enumeration and passive
inaction, enabling efficient exploration and precise reasoning. Comprehensive
evaluations demonstrate that STAR-R1 achieves state-of-the-art performance
across all 11 metrics, outperforming SFT by 23% in cross-view scenarios.
Further analysis reveals STAR-R1's anthropomorphic behavior and highlights its
unique ability to compare all objects for improving spatial reasoning. Our work
provides critical insights in advancing the research of MLLMs and reasoning
models. The codes, model weights, and data will be publicly available at
https://github.com/zongzhao23/STAR-R1.