STAR-R1: Razonamiento de Transformación Espacial mediante el Reforzamiento de LLMs Multimodales
STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs
May 21, 2025
Autores: Zongzhao Li, Zongyang Ma, Mingze Li, Songyou Li, Yu Rong, Tingyang Xu, Ziqi Zhang, Deli Zhao, Wenbing Huang
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades notables en diversas tareas, aunque aún se encuentran significativamente rezagados frente a los humanos en razonamiento espacial. Investigamos esta brecha a través del Razonamiento Visual Impulsado por Transformaciones (TVR, por sus siglas en inglés), una tarea desafiante que requiere la identificación de transformaciones de objetos en imágenes bajo diferentes puntos de vista. Mientras que el Ajuste Fino Supervisado (SFT, por sus siglas en inglés) tradicional no logra generar trayectorias de razonamiento coherentes en entornos de vistas cruzadas, el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) con recompensas escasas sufre de exploración ineficiente y convergencia lenta. Para abordar estas limitaciones, proponemos STAR-R1, un marco novedoso que integra un paradigma de RL de una sola etapa con un mecanismo de recompensa detallado diseñado específicamente para TVR. En concreto, STAR-R1 recompensa la corrección parcial mientras penaliza la enumeración excesiva y la inacción pasiva, permitiendo una exploración eficiente y un razonamiento preciso. Evaluaciones exhaustivas demuestran que STAR-R1 alcanza un rendimiento de vanguardia en los 11 métricos evaluados, superando a SFT en un 23% en escenarios de vistas cruzadas. Un análisis adicional revela el comportamiento antropomórfico de STAR-R1 y destaca su capacidad única para comparar todos los objetos con el fin de mejorar el razonamiento espacial. Nuestro trabajo proporciona insights críticos para avanzar en la investigación de MLLMs y modelos de razonamiento. Los códigos, pesos del modelo y datos estarán disponibles públicamente en https://github.com/zongzhao23/STAR-R1.
English
Multimodal Large Language Models (MLLMs) have demonstrated remarkable
capabilities across diverse tasks, yet they lag significantly behind humans in
spatial reasoning. We investigate this gap through Transformation-Driven Visual
Reasoning (TVR), a challenging task requiring identification of object
transformations across images under varying viewpoints. While traditional
Supervised Fine-Tuning (SFT) fails to generate coherent reasoning paths in
cross-view settings, sparse-reward Reinforcement Learning (RL) suffers from
inefficient exploration and slow convergence. To address these limitations, we
propose STAR-R1, a novel framework that integrates a single-stage RL paradigm
with a fine-grained reward mechanism tailored for TVR. Specifically, STAR-R1
rewards partial correctness while penalizing excessive enumeration and passive
inaction, enabling efficient exploration and precise reasoning. Comprehensive
evaluations demonstrate that STAR-R1 achieves state-of-the-art performance
across all 11 metrics, outperforming SFT by 23% in cross-view scenarios.
Further analysis reveals STAR-R1's anthropomorphic behavior and highlights its
unique ability to compare all objects for improving spatial reasoning. Our work
provides critical insights in advancing the research of MLLMs and reasoning
models. The codes, model weights, and data will be publicly available at
https://github.com/zongzhao23/STAR-R1.Summary
AI-Generated Summary