STAR-R1: Ruimtelijke Transformatie Redenering door Versterking van Multimodale LLM's
STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs
May 21, 2025
Auteurs: Zongzhao Li, Zongyang Ma, Mingze Li, Songyou Li, Yu Rong, Tingyang Xu, Ziqi Zhang, Deli Zhao, Wenbing Huang
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) hebben opmerkelijke capaciteiten getoond bij diverse taken, maar ze blijven aanzienlijk achter bij mensen op het gebied van ruimtelijk redeneren. Wij onderzoeken deze kloof via Transformation-Driven Visual Reasoning (TVR), een uitdagende taak die het identificeren van objecttransformaties tussen afbeeldingen onder verschillende gezichtspunten vereist. Terwijl traditionele Supervised Fine-Tuning (SFT) er niet in slaagt coherente redeneerpaden te genereren in cross-view situaties, lijdt sparse-reward Reinforcement Learning (RL) onder inefficiënte exploratie en trage convergentie. Om deze beperkingen aan te pakken, stellen we STAR-R1 voor, een nieuw framework dat een single-stage RL-paradigma integreert met een fijnmazig beloningsmechanisme dat is afgestemd op TVR. Specifiek beloont STAR-R1 gedeeltelijke correctheid terwijl het overmatige enumeratie en passief nietsdoen bestraft, waardoor efficiënte exploratie en precies redeneren mogelijk worden. Uitgebreide evaluaties tonen aan dat STAR-R1 state-of-the-art prestaties behaalt op alle 11 metrieken, waarbij het SFT met 23% overtreft in cross-view scenario's. Verdere analyse onthult het antropomorfe gedrag van STAR-R1 en benadrukt het unieke vermogen om alle objecten te vergelijken voor het verbeteren van ruimtelijk redeneren. Ons werk biedt cruciale inzichten voor het bevorderen van onderzoek naar MLLMs en redeneermodellen. De codes, modelgewichten en data zullen publiekelijk beschikbaar zijn op https://github.com/zongzhao23/STAR-R1.
English
Multimodal Large Language Models (MLLMs) have demonstrated remarkable
capabilities across diverse tasks, yet they lag significantly behind humans in
spatial reasoning. We investigate this gap through Transformation-Driven Visual
Reasoning (TVR), a challenging task requiring identification of object
transformations across images under varying viewpoints. While traditional
Supervised Fine-Tuning (SFT) fails to generate coherent reasoning paths in
cross-view settings, sparse-reward Reinforcement Learning (RL) suffers from
inefficient exploration and slow convergence. To address these limitations, we
propose STAR-R1, a novel framework that integrates a single-stage RL paradigm
with a fine-grained reward mechanism tailored for TVR. Specifically, STAR-R1
rewards partial correctness while penalizing excessive enumeration and passive
inaction, enabling efficient exploration and precise reasoning. Comprehensive
evaluations demonstrate that STAR-R1 achieves state-of-the-art performance
across all 11 metrics, outperforming SFT by 23% in cross-view scenarios.
Further analysis reveals STAR-R1's anthropomorphic behavior and highlights its
unique ability to compare all objects for improving spatial reasoning. Our work
provides critical insights in advancing the research of MLLMs and reasoning
models. The codes, model weights, and data will be publicly available at
https://github.com/zongzhao23/STAR-R1.