3D-R1: Potenziamento del Ragionamento nei Modelli Linguistici Visivi 3D per una Comprensione Unificata delle Scene
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
July 31, 2025
Autori: Ting Huang, Zeyu Zhang, Hao Tang
cs.AI
Abstract
I grandi modelli visione-linguaggio (VLMs) hanno compiuto progressi significativi nelle attività di comprensione visiva 2D, suscitando interesse nell'estendere queste capacità alla comprensione di scene 3D. Tuttavia, gli attuali VLMs 3D spesso faticano a dimostrare un ragionamento robusto e una buona generalizzazione a causa delle limitazioni nei dati spaziali di alta qualità e della natura statica delle assunzioni sul punto di vista. Per affrontare queste sfide, proponiamo 3D-R1, un modello di base che potenzia le capacità di ragionamento dei VLMs 3D. Nello specifico, costruiamo inizialmente un dataset sintetico di alta qualità con CoT, denominato Scene-30K, sfruttando i dataset 3D-VL esistenti e un motore di dati basato su Gemini 2.5 Pro. Questo serve come dati di inizializzazione a freddo per 3D-R1. Inoltre, utilizziamo una politica RLHF come GRPO nel processo di addestramento con apprendimento per rinforzo per migliorare le capacità di ragionamento e introduciamo tre funzioni di ricompensa: una ricompensa percettiva, una ricompensa di similarità semantica e una ricompensa di formato per mantenere l'accuratezza del rilevamento e la precisione semantica delle risposte. Inoltre, introduciamo una strategia di selezione dinamica della vista che sceglie in modo adattivo le prospettive più informative per la comprensione delle scene 3D. Esperimenti estensivi dimostrano che 3D-R1 offre un miglioramento medio del 10% su vari benchmark di scene 3D, evidenziando la sua efficacia nel potenziare il ragionamento e la generalizzazione nella comprensione delle scene 3D. Codice: https://github.com/AIGeeksGroup/3D-R1. Sito web: https://aigeeksgroup.github.io/3D-R1.
English
Large vision-language models (VLMs) have made significant strides in 2D
visual understanding tasks, sparking interest in extending these capabilities
to 3D scene understanding. However, current 3D VLMs often struggle with robust
reasoning and generalization due to limitations in high-quality spatial data
and the static nature of viewpoint assumptions. To address these challenges, we
propose 3D-R1, a foundation model that enhances the reasoning capabilities of
3D VLMs. Specifically, we first construct a high-quality synthetic dataset with
CoT, named Scene-30K, leveraging existing 3D-VL datasets and a data engine
based on Gemini 2.5 Pro. It serves as cold-start initialization data for 3D-R1.
Moreover, we leverage RLHF policy such as GRPO in the reinforcement learning
training process to enhance reasoning capabilities and introduce three reward
functions: a perception reward, a semantic similarity reward and a format
reward to maintain detection accuracy and answer semantic precision.
Furthermore, we introduce a dynamic view selection strategy that adaptively
chooses the most informative perspectives for 3D scene understanding. Extensive
experiments demonstrate that 3D-R1 delivers an average improvement of 10%
across various 3D scene benchmarks, highlighting its effectiveness in enhancing
reasoning and generalization in 3D scene understanding. Code:
https://github.com/AIGeeksGroup/3D-R1. Website:
https://aigeeksgroup.github.io/3D-R1.