ChatPaper.aiChatPaper

STAR-R1 : Raisonnement sur les Transformations Spatiales par Renforcement des LLMs Multimodaux

STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs

May 21, 2025
Auteurs: Zongzhao Li, Zongyang Ma, Mingze Li, Songyou Li, Yu Rong, Tingyang Xu, Ziqi Zhang, Deli Zhao, Wenbing Huang
cs.AI

Résumé

Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités remarquables dans diverses tâches, mais ils restent nettement en retard par rapport aux humains en matière de raisonnement spatial. Nous étudions cet écart à travers le raisonnement visuel piloté par les transformations (TVR), une tâche complexe nécessitant l'identification des transformations d'objets entre des images sous différents points de vue. Alors que l'affinage supervisé traditionnel (SFT) échoue à générer des chemins de raisonnement cohérents dans des configurations inter-vues, l'apprentissage par renforcement à récompense éparse (RL) souffre d'une exploration inefficace et d'une convergence lente. Pour pallier ces limitations, nous proposons STAR-R1, un cadre novateur qui intègre un paradigme RL en une seule étape avec un mécanisme de récompense granulaire spécifiquement conçu pour le TVR. Concrètement, STAR-R1 récompense la justesse partielle tout en pénalisant l'énumération excessive et l'inaction passive, permettant ainsi une exploration efficace et un raisonnement précis. Des évaluations approfondies montrent que STAR-R1 atteint des performances de pointe sur les 11 métriques, surpassant le SFT de 23 % dans les scénarios inter-vues. Une analyse plus poussée révèle le comportement anthropomorphique de STAR-R1 et met en lumière sa capacité unique à comparer tous les objets pour améliorer le raisonnement spatial. Notre travail fournit des insights critiques pour faire progresser la recherche sur les MLLMs et les modèles de raisonnement. Les codes, les poids du modèle et les données seront disponibles publiquement à l'adresse https://github.com/zongzhao23/STAR-R1.
English
Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities across diverse tasks, yet they lag significantly behind humans in spatial reasoning. We investigate this gap through Transformation-Driven Visual Reasoning (TVR), a challenging task requiring identification of object transformations across images under varying viewpoints. While traditional Supervised Fine-Tuning (SFT) fails to generate coherent reasoning paths in cross-view settings, sparse-reward Reinforcement Learning (RL) suffers from inefficient exploration and slow convergence. To address these limitations, we propose STAR-R1, a novel framework that integrates a single-stage RL paradigm with a fine-grained reward mechanism tailored for TVR. Specifically, STAR-R1 rewards partial correctness while penalizing excessive enumeration and passive inaction, enabling efficient exploration and precise reasoning. Comprehensive evaluations demonstrate that STAR-R1 achieves state-of-the-art performance across all 11 metrics, outperforming SFT by 23% in cross-view scenarios. Further analysis reveals STAR-R1's anthropomorphic behavior and highlights its unique ability to compare all objects for improving spatial reasoning. Our work provides critical insights in advancing the research of MLLMs and reasoning models. The codes, model weights, and data will be publicly available at https://github.com/zongzhao23/STAR-R1.

Summary

AI-Generated Summary

PDF82May 27, 2025