ChatPaper.aiChatPaper

3D-R1: Улучшение способности к рассуждению в 3D моделях визуального языка для унифицированного понимания сцен

3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

July 31, 2025
Авторы: Ting Huang, Zeyu Zhang, Hao Tang
cs.AI

Аннотация

Крупные модели, объединяющие зрение и язык (VLMs), достигли значительных успехов в задачах понимания 2D-изображений, что вызвало интерес к расширению этих возможностей на понимание 3D-сцен. Однако современные 3D VLMs часто сталкиваются с трудностями в устойчивом рассуждении и обобщении из-за ограничений в высококачественных пространственных данных и статичности предположений о точках обзора. Для решения этих проблем мы предлагаем 3D-R1, базовую модель, которая улучшает способности к рассуждению 3D VLMs. В частности, мы сначала создаем высококачественный синтетический набор данных с CoT, названный Scene-30K, используя существующие 3D-VL наборы данных и механизм данных на основе Gemini 2.5 Pro. Он служит начальными данными для холодного старта 3D-R1. Кроме того, мы применяем политику RLHF, такую как GRPO, в процессе обучения с подкреплением для улучшения способностей к рассуждению и вводим три функции вознаграждения: вознаграждение за восприятие, вознаграждение за семантическое сходство и вознаграждение за формат, чтобы поддерживать точность обнаружения и семантическую точность ответов. Кроме того, мы предлагаем стратегию динамического выбора обзора, которая адаптивно выбирает наиболее информативные перспективы для понимания 3D-сцен. Многочисленные эксперименты демонстрируют, что 3D-R1 обеспечивает среднее улучшение на 10% в различных тестах 3D-сцен, подчеркивая ее эффективность в улучшении рассуждений и обобщения в понимании 3D-сцен. Код: https://github.com/AIGeeksGroup/3D-R1. Сайт: https://aigeeksgroup.github.io/3D-R1.
English
Large vision-language models (VLMs) have made significant strides in 2D visual understanding tasks, sparking interest in extending these capabilities to 3D scene understanding. However, current 3D VLMs often struggle with robust reasoning and generalization due to limitations in high-quality spatial data and the static nature of viewpoint assumptions. To address these challenges, we propose 3D-R1, a foundation model that enhances the reasoning capabilities of 3D VLMs. Specifically, we first construct a high-quality synthetic dataset with CoT, named Scene-30K, leveraging existing 3D-VL datasets and a data engine based on Gemini 2.5 Pro. It serves as cold-start initialization data for 3D-R1. Moreover, we leverage RLHF policy such as GRPO in the reinforcement learning training process to enhance reasoning capabilities and introduce three reward functions: a perception reward, a semantic similarity reward and a format reward to maintain detection accuracy and answer semantic precision. Furthermore, we introduce a dynamic view selection strategy that adaptively chooses the most informative perspectives for 3D scene understanding. Extensive experiments demonstrate that 3D-R1 delivers an average improvement of 10% across various 3D scene benchmarks, highlighting its effectiveness in enhancing reasoning and generalization in 3D scene understanding. Code: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.
PDF132August 4, 2025