ChatPaper.aiChatPaper

3D-R1: Verbesserung des logischen Denkens in 3D-VLMs für einheitliches Szenenverständnis

3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

July 31, 2025
papers.authors: Ting Huang, Zeyu Zhang, Hao Tang
cs.AI

papers.abstract

Große Vision-Sprach-Modelle (VLMs) haben bedeutende Fortschritte bei 2D-Bildverständnisaufgaben erzielt, was das Interesse geweckt hat, diese Fähigkeiten auf das Verständnis von 3D-Szenen auszuweiten. Allerdings kämpfen aktuelle 3D-VLMs oft mit robustem Schlussfolgern und Generalisierung aufgrund von Einschränkungen bei hochwertigen räumlichen Daten und der statischen Natur von Blickwinkelannahmen. Um diese Herausforderungen zu bewältigen, schlagen wir 3D-R1 vor, ein Grundlagenmodell, das die Schlussfolgerungsfähigkeiten von 3D-VLMs verbessert. Konkret konstruieren wir zunächst einen hochwertigen synthetischen Datensatz mit CoT, genannt Scene-30K, indem wir bestehende 3D-VL-Datensätze und eine auf Gemini 2.5 Pro basierende Datenengine nutzen. Dieser dient als Cold-Start-Initialisierungsdaten für 3D-R1. Darüber hinaus nutzen wir eine RLHF-Politik wie GRPO im Reinforcement-Learning-Trainingsprozess, um die Schlussfolgerungsfähigkeiten zu verbessern, und führen drei Belohnungsfunktionen ein: eine Wahrnehmungsbelohnung, eine semantische Ähnlichkeitsbelohnung und eine Formatbelohnung, um die Erkennungsgenauigkeit und die semantische Präzision der Antworten zu gewährleisten. Des Weiteren führen wir eine dynamische Ansichtsauswahlstrategie ein, die adaptiv die informativsten Perspektiven für das Verständnis von 3D-Szenen auswählt. Umfangreiche Experimente zeigen, dass 3D-R1 eine durchschnittliche Verbesserung von 10 % über verschiedene 3D-Szenen-Benchmarks hinweg erzielt, was seine Wirksamkeit bei der Verbesserung des Schlussfolgerns und der Generalisierung im 3D-Szenenverständnis unterstreicht. Code: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.
English
Large vision-language models (VLMs) have made significant strides in 2D visual understanding tasks, sparking interest in extending these capabilities to 3D scene understanding. However, current 3D VLMs often struggle with robust reasoning and generalization due to limitations in high-quality spatial data and the static nature of viewpoint assumptions. To address these challenges, we propose 3D-R1, a foundation model that enhances the reasoning capabilities of 3D VLMs. Specifically, we first construct a high-quality synthetic dataset with CoT, named Scene-30K, leveraging existing 3D-VL datasets and a data engine based on Gemini 2.5 Pro. It serves as cold-start initialization data for 3D-R1. Moreover, we leverage RLHF policy such as GRPO in the reinforcement learning training process to enhance reasoning capabilities and introduce three reward functions: a perception reward, a semantic similarity reward and a format reward to maintain detection accuracy and answer semantic precision. Furthermore, we introduce a dynamic view selection strategy that adaptively chooses the most informative perspectives for 3D scene understanding. Extensive experiments demonstrate that 3D-R1 delivers an average improvement of 10% across various 3D scene benchmarks, highlighting its effectiveness in enhancing reasoning and generalization in 3D scene understanding. Code: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.
PDF132August 4, 2025