ChatPaper.aiChatPaper

3D-R1: Aprimorando o Raciocínio em VLMs 3D para Compreensão Unificada de Cenas

3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

July 31, 2025
Autores: Ting Huang, Zeyu Zhang, Hao Tang
cs.AI

Resumo

Grandes modelos de visão e linguagem (VLMs) têm feito avanços significativos em tarefas de compreensão visual 2D, despertando interesse em estender essas capacidades para a compreensão de cenas 3D. No entanto, os VLMs 3D atuais frequentemente enfrentam dificuldades com raciocínio robusto e generalização devido a limitações em dados espaciais de alta qualidade e à natureza estática das suposições de ponto de vista. Para abordar esses desafios, propomos o 3D-R1, um modelo de base que aprimora as capacidades de raciocínio dos VLMs 3D. Especificamente, primeiro construímos um conjunto de dados sintético de alta qualidade com CoT, denominado Scene-30K, aproveitando conjuntos de dados 3D-VL existentes e um mecanismo de dados baseado no Gemini 2.5 Pro. Ele serve como dados de inicialização de partida a frio para o 3D-R1. Além disso, utilizamos uma política de RLHF, como GRPO, no processo de treinamento de aprendizado por reforço para aprimorar as capacidades de raciocínio e introduzimos três funções de recompensa: uma recompensa de percepção, uma recompensa de similaridade semântica e uma recompensa de formato para manter a precisão de detecção e a precisão semântica das respostas. Adicionalmente, introduzimos uma estratégia dinâmica de seleção de visão que escolhe adaptativamente as perspectivas mais informativas para a compreensão de cenas 3D. Experimentos extensivos demonstram que o 3D-R1 proporciona uma melhoria média de 10% em vários benchmarks de cenas 3D, destacando sua eficácia no aprimoramento do raciocínio e da generalização na compreensão de cenas 3D. Código: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.
English
Large vision-language models (VLMs) have made significant strides in 2D visual understanding tasks, sparking interest in extending these capabilities to 3D scene understanding. However, current 3D VLMs often struggle with robust reasoning and generalization due to limitations in high-quality spatial data and the static nature of viewpoint assumptions. To address these challenges, we propose 3D-R1, a foundation model that enhances the reasoning capabilities of 3D VLMs. Specifically, we first construct a high-quality synthetic dataset with CoT, named Scene-30K, leveraging existing 3D-VL datasets and a data engine based on Gemini 2.5 Pro. It serves as cold-start initialization data for 3D-R1. Moreover, we leverage RLHF policy such as GRPO in the reinforcement learning training process to enhance reasoning capabilities and introduce three reward functions: a perception reward, a semantic similarity reward and a format reward to maintain detection accuracy and answer semantic precision. Furthermore, we introduce a dynamic view selection strategy that adaptively chooses the most informative perspectives for 3D scene understanding. Extensive experiments demonstrate that 3D-R1 delivers an average improvement of 10% across various 3D scene benchmarks, highlighting its effectiveness in enhancing reasoning and generalization in 3D scene understanding. Code: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.
PDF152August 4, 2025