3D-R1: Potenziamento del Ragionamento nei Modelli Linguistici Visivi 3D per una Comprensione Unificata delle Scene

Abstract

I grandi modelli visione-linguaggio (VLMs) hanno compiuto progressi significativi nelle attività di comprensione visiva 2D, suscitando interesse nell'estendere queste capacità alla comprensione di scene 3D. Tuttavia, gli attuali VLMs 3D spesso faticano a dimostrare un ragionamento robusto e una buona generalizzazione a causa delle limitazioni nei dati spaziali di alta qualità e della natura statica delle assunzioni sul punto di vista. Per affrontare queste sfide, proponiamo 3D-R1, un modello di base che potenzia le capacità di ragionamento dei VLMs 3D. Nello specifico, costruiamo inizialmente un dataset sintetico di alta qualità con CoT, denominato Scene-30K, sfruttando i dataset 3D-VL esistenti e un motore di dati basato su Gemini 2.5 Pro. Questo serve come dati di inizializzazione a freddo per 3D-R1. Inoltre, utilizziamo una politica RLHF come GRPO nel processo di addestramento con apprendimento per rinforzo per migliorare le capacità di ragionamento e introduciamo tre funzioni di ricompensa: una ricompensa percettiva, una ricompensa di similarità semantica e una ricompensa di formato per mantenere l'accuratezza del rilevamento e la precisione semantica delle risposte. Inoltre, introduciamo una strategia di selezione dinamica della vista che sceglie in modo adattivo le prospettive più informative per la comprensione delle scene 3D. Esperimenti estensivi dimostrano che 3D-R1 offre un miglioramento medio del 10% su vari benchmark di scene 3D, evidenziando la sua efficacia nel potenziare il ragionamento e la generalizzazione nella comprensione delle scene 3D. Codice: https://github.com/AIGeeksGroup/3D-R1. Sito web: https://aigeeksgroup.github.io/3D-R1.

English

Large vision-language models (VLMs) have made significant strides in 2D visual understanding tasks, sparking interest in extending these capabilities to 3D scene understanding. However, current 3D VLMs often struggle with robust reasoning and generalization due to limitations in high-quality spatial data and the static nature of viewpoint assumptions. To address these challenges, we propose 3D-R1, a foundation model that enhances the reasoning capabilities of 3D VLMs. Specifically, we first construct a high-quality synthetic dataset with CoT, named Scene-30K, leveraging existing 3D-VL datasets and a data engine based on Gemini 2.5 Pro. It serves as cold-start initialization data for 3D-R1. Moreover, we leverage RLHF policy such as GRPO in the reinforcement learning training process to enhance reasoning capabilities and introduce three reward functions: a perception reward, a semantic similarity reward and a format reward to maintain detection accuracy and answer semantic precision. Furthermore, we introduce a dynamic view selection strategy that adaptively chooses the most informative perspectives for 3D scene understanding. Extensive experiments demonstrate that 3D-R1 delivers an average improvement of 10% across various 3D scene benchmarks, highlighting its effectiveness in enhancing reasoning and generalization in 3D scene understanding. Code: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.

3D-R1: Potenziamento del Ragionamento nei Modelli Linguistici Visivi 3D per una Comprensione Unificata delle Scene

3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

Abstract

Support