3D-R1: Mejora del razonamiento en VLMs 3D para la comprensión unificada de escenas
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
July 31, 2025
Autores: Ting Huang, Zeyu Zhang, Hao Tang
cs.AI
Resumen
Los modelos grandes de visión y lenguaje (VLMs, por sus siglas en inglés) han logrado avances significativos en tareas de comprensión visual en 2D, lo que ha generado interés en extender estas capacidades a la comprensión de escenas en 3D. Sin embargo, los VLMs 3D actuales a menudo enfrentan dificultades en el razonamiento robusto y la generalización debido a las limitaciones en datos espaciales de alta calidad y la naturaleza estática de las suposiciones sobre el punto de vista. Para abordar estos desafíos, proponemos 3D-R1, un modelo base que mejora las capacidades de razonamiento de los VLMs 3D. Específicamente, primero construimos un conjunto de datos sintéticos de alta calidad con CoT, denominado Scene-30K, aprovechando conjuntos de datos 3D-VL existentes y un motor de datos basado en Gemini 2.5 Pro. Este conjunto sirve como datos de inicialización para 3D-R1. Además, utilizamos una política de RLHF, como GRPO, en el proceso de entrenamiento de aprendizaje por refuerzo para mejorar las capacidades de razonamiento e introducimos tres funciones de recompensa: una recompensa de percepción, una recompensa de similitud semántica y una recompensa de formato para mantener la precisión en la detección y la exactitud semántica en las respuestas. Asimismo, presentamos una estrategia dinámica de selección de vistas que elige de manera adaptativa las perspectivas más informativas para la comprensión de escenas en 3D. Experimentos exhaustivos demuestran que 3D-R1 logra una mejora promedio del 10 % en varios puntos de referencia de escenas 3D, destacando su efectividad para mejorar el razonamiento y la generalización en la comprensión de escenas en 3D. Código: https://github.com/AIGeeksGroup/3D-R1. Sitio web: https://aigeeksgroup.github.io/3D-R1.
English
Large vision-language models (VLMs) have made significant strides in 2D
visual understanding tasks, sparking interest in extending these capabilities
to 3D scene understanding. However, current 3D VLMs often struggle with robust
reasoning and generalization due to limitations in high-quality spatial data
and the static nature of viewpoint assumptions. To address these challenges, we
propose 3D-R1, a foundation model that enhances the reasoning capabilities of
3D VLMs. Specifically, we first construct a high-quality synthetic dataset with
CoT, named Scene-30K, leveraging existing 3D-VL datasets and a data engine
based on Gemini 2.5 Pro. It serves as cold-start initialization data for 3D-R1.
Moreover, we leverage RLHF policy such as GRPO in the reinforcement learning
training process to enhance reasoning capabilities and introduce three reward
functions: a perception reward, a semantic similarity reward and a format
reward to maintain detection accuracy and answer semantic precision.
Furthermore, we introduce a dynamic view selection strategy that adaptively
chooses the most informative perspectives for 3D scene understanding. Extensive
experiments demonstrate that 3D-R1 delivers an average improvement of 10%
across various 3D scene benchmarks, highlighting its effectiveness in enhancing
reasoning and generalization in 3D scene understanding. Code:
https://github.com/AIGeeksGroup/3D-R1. Website:
https://aigeeksgroup.github.io/3D-R1.