ChatPaper.aiChatPaper

3D-R1: Verbetering van redeneren in 3D VLMs voor geïntegreerde scène-interpretatie

3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

July 31, 2025
Auteurs: Ting Huang, Zeyu Zhang, Hao Tang
cs.AI

Samenvatting

Grote visueel-taalmodelen (VLMs) hebben aanzienlijke vooruitgang geboekt in 2D-visueel begripstaken, wat interesse heeft gewekt in het uitbreiden van deze mogelijkheden naar 3D-scènebegrip. Huidige 3D-VLMs hebben echter vaak moeite met robuust redeneren en generalisatie vanwege beperkingen in hoogwaardige ruimtelijke data en de statische aard van gezichtspuntaannames. Om deze uitdagingen aan te pakken, stellen we 3D-R1 voor, een fundamenteel model dat de redeneervaardigheden van 3D-VLMs verbetert. Specifiek construeren we eerst een hoogwaardige synthetische dataset met CoT, genaamd Scene-30K, waarbij we bestaande 3D-VL-datasets en een data-engine gebaseerd op Gemini 2.5 Pro benutten. Dit dient als koude-start initialisatiedata voor 3D-R1. Bovendien maken we gebruik van RLHF-beleid zoals GRPO in het reinforcement learning-trainingsproces om de redeneervaardigheden te verbeteren en introduceren we drie beloningsfuncties: een perceptiebeloning, een semantische gelijkenisbeloning en een formaatbeloning om de detectienauwkeurigheid en semantische precisie van antwoorden te behouden. Verder introduceren we een dynamische view-selectiestrategie die adaptief de meest informatieve perspectieven kiest voor 3D-scènebegrip. Uitgebreide experimenten tonen aan dat 3D-R1 een gemiddelde verbetering van 10% oplevert over verschillende 3D-scènebenchmarks, wat de effectiviteit ervan onderstreept in het verbeteren van redeneren en generalisatie in 3D-scènebegrip. Code: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.
English
Large vision-language models (VLMs) have made significant strides in 2D visual understanding tasks, sparking interest in extending these capabilities to 3D scene understanding. However, current 3D VLMs often struggle with robust reasoning and generalization due to limitations in high-quality spatial data and the static nature of viewpoint assumptions. To address these challenges, we propose 3D-R1, a foundation model that enhances the reasoning capabilities of 3D VLMs. Specifically, we first construct a high-quality synthetic dataset with CoT, named Scene-30K, leveraging existing 3D-VL datasets and a data engine based on Gemini 2.5 Pro. It serves as cold-start initialization data for 3D-R1. Moreover, we leverage RLHF policy such as GRPO in the reinforcement learning training process to enhance reasoning capabilities and introduce three reward functions: a perception reward, a semantic similarity reward and a format reward to maintain detection accuracy and answer semantic precision. Furthermore, we introduce a dynamic view selection strategy that adaptively chooses the most informative perspectives for 3D scene understanding. Extensive experiments demonstrate that 3D-R1 delivers an average improvement of 10% across various 3D scene benchmarks, highlighting its effectiveness in enhancing reasoning and generalization in 3D scene understanding. Code: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.
PDF152August 4, 2025