3D-R1 : Amélioration du raisonnement dans les modèles de langage visuel 3D pour une compréhension unifiée des scènes
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
July 31, 2025
papers.authors: Ting Huang, Zeyu Zhang, Hao Tang
cs.AI
papers.abstract
Les grands modèles vision-langage (VLMs) ont réalisé des progrès significatifs dans les tâches de compréhension visuelle 2D, suscitant un intérêt pour étendre ces capacités à la compréhension de scènes 3D. Cependant, les VLMs 3D actuels rencontrent souvent des difficultés en matière de raisonnement robuste et de généralisation, en raison des limitations des données spatiales de haute qualité et de la nature statique des hypothèses sur les points de vue. Pour relever ces défis, nous proposons 3D-R1, un modèle de base qui améliore les capacités de raisonnement des VLMs 3D. Plus précisément, nous construisons d'abord un ensemble de données synthétiques de haute qualité avec CoT, nommé Scene-30K, en exploitant les ensembles de données 3D-VL existants et un moteur de données basé sur Gemini 2.5 Pro. Il sert de données d'initialisation pour 3D-R1. De plus, nous utilisons une politique RLHF telle que GRPO dans le processus d'apprentissage par renforcement pour améliorer les capacités de raisonnement et introduisons trois fonctions de récompense : une récompense de perception, une récompense de similarité sémantique et une récompense de format pour maintenir la précision de détection et la précision sémantique des réponses. Par ailleurs, nous introduisons une stratégie de sélection de vue dynamique qui choisit de manière adaptative les perspectives les plus informatives pour la compréhension de scènes 3D. Des expériences approfondies démontrent que 3D-R1 apporte une amélioration moyenne de 10 % sur divers benchmarks de scènes 3D, mettant en évidence son efficacité pour améliorer le raisonnement et la généralisation dans la compréhension de scènes 3D. Code : https://github.com/AIGeeksGroup/3D-R1. Site web : https://aigeeksgroup.github.io/3D-R1.
English
Large vision-language models (VLMs) have made significant strides in 2D
visual understanding tasks, sparking interest in extending these capabilities
to 3D scene understanding. However, current 3D VLMs often struggle with robust
reasoning and generalization due to limitations in high-quality spatial data
and the static nature of viewpoint assumptions. To address these challenges, we
propose 3D-R1, a foundation model that enhances the reasoning capabilities of
3D VLMs. Specifically, we first construct a high-quality synthetic dataset with
CoT, named Scene-30K, leveraging existing 3D-VL datasets and a data engine
based on Gemini 2.5 Pro. It serves as cold-start initialization data for 3D-R1.
Moreover, we leverage RLHF policy such as GRPO in the reinforcement learning
training process to enhance reasoning capabilities and introduce three reward
functions: a perception reward, a semantic similarity reward and a format
reward to maintain detection accuracy and answer semantic precision.
Furthermore, we introduce a dynamic view selection strategy that adaptively
chooses the most informative perspectives for 3D scene understanding. Extensive
experiments demonstrate that 3D-R1 delivers an average improvement of 10%
across various 3D scene benchmarks, highlighting its effectiveness in enhancing
reasoning and generalization in 3D scene understanding. Code:
https://github.com/AIGeeksGroup/3D-R1. Website:
https://aigeeksgroup.github.io/3D-R1.