ChatPaper.aiChatPaper

MetaSpatial: Усиление пространственного мышления в 3D для визуально-языковых моделей в метавселенной

MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse

March 24, 2025
Авторы: Zhenyu Pan, Han Liu
cs.AI

Аннотация

Мы представляем MetaSpatial — первую платформу на основе обучения с подкреплением (RL), предназначенную для улучшения 3D-пространственного мышления в моделях, объединяющих зрение и язык (VLMs), что позволяет генерировать 3D-сцены в реальном времени без необходимости жестко заданных оптимизаций. MetaSpatial решает две ключевые проблемы: (i) отсутствие внутреннего 3D-пространственного мышления в VLMs, что ограничивает их способность создавать реалистичные компоновки, и (ii) неэффективность традиционного тонкого настройки (SFT) для задач генерации компоновок, поскольку идеальные аннотации для обучения недоступны. Нашим ключевым нововведением является механизм оптимизации на основе многошагового RL, который интегрирует физически обоснованные ограничения и оценку визуализированных изображений, обеспечивая согласованность, физическую правдоподобность и эстетическую целостность генерируемых 3D-компоновок. Методологически MetaSpatial представляет адаптивный итеративный процесс рассуждений, в ходе которого VLM уточняет пространственные расположения на нескольких шагах, анализируя визуализированные результаты, постепенно улучшая согласованность сцены. Эмпирические оценки показывают, что MetaSpatial значительно повышает пространственную согласованность и стабильность форматирования моделей различных масштабов. После обучения размещение объектов становится более реалистичным, выровненным и функционально согласованным, что подтверждает эффективность RL для 3D-пространственного мышления в приложениях метавселенной, AR/VR, цифровых двойников и разработки игр. Наш код, данные и обучающий конвейер доступны по адресу https://github.com/PzySeere/MetaSpatial.
English
We present MetaSpatial, the first reinforcement learning (RL)-based framework designed to enhance 3D spatial reasoning in vision-language models (VLMs), enabling real-time 3D scene generation without the need for hard-coded optimizations. MetaSpatial addresses two core challenges: (i) the lack of internalized 3D spatial reasoning in VLMs, which limits their ability to generate realistic layouts, and (ii) the inefficiency of traditional supervised fine-tuning (SFT) for layout generation tasks, as perfect ground truth annotations are unavailable. Our key innovation is a multi-turn RL-based optimization mechanism that integrates physics-aware constraints and rendered image evaluations, ensuring generated 3D layouts are coherent, physically plausible, and aesthetically consistent. Methodologically, MetaSpatial introduces an adaptive, iterative reasoning process, where the VLM refines spatial arrangements over multiple turns by analyzing rendered outputs, improving scene coherence progressively. Empirical evaluations demonstrate that MetaSpatial significantly enhances the spatial consistency and formatting stability of various scale models. Post-training, object placements are more realistic, aligned, and functionally coherent, validating the effectiveness of RL for 3D spatial reasoning in metaverse, AR/VR, digital twins, and game development applications. Our code, data, and training pipeline are publicly available at https://github.com/PzySeere/MetaSpatial.

Summary

AI-Generated Summary

PDF32March 25, 2025