MetaSpatial: Усиление пространственного мышления в 3D для визуально-языковых моделей в метавселенной
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse
March 24, 2025
Авторы: Zhenyu Pan, Han Liu
cs.AI
Аннотация
Мы представляем MetaSpatial — первую платформу на основе обучения с подкреплением (RL), предназначенную для улучшения 3D-пространственного мышления в моделях, объединяющих зрение и язык (VLMs), что позволяет генерировать 3D-сцены в реальном времени без необходимости жестко заданных оптимизаций. MetaSpatial решает две ключевые проблемы: (i) отсутствие внутреннего 3D-пространственного мышления в VLMs, что ограничивает их способность создавать реалистичные компоновки, и (ii) неэффективность традиционного тонкого настройки (SFT) для задач генерации компоновок, поскольку идеальные аннотации для обучения недоступны. Нашим ключевым нововведением является механизм оптимизации на основе многошагового RL, который интегрирует физически обоснованные ограничения и оценку визуализированных изображений, обеспечивая согласованность, физическую правдоподобность и эстетическую целостность генерируемых 3D-компоновок. Методологически MetaSpatial представляет адаптивный итеративный процесс рассуждений, в ходе которого VLM уточняет пространственные расположения на нескольких шагах, анализируя визуализированные результаты, постепенно улучшая согласованность сцены. Эмпирические оценки показывают, что MetaSpatial значительно повышает пространственную согласованность и стабильность форматирования моделей различных масштабов. После обучения размещение объектов становится более реалистичным, выровненным и функционально согласованным, что подтверждает эффективность RL для 3D-пространственного мышления в приложениях метавселенной, AR/VR, цифровых двойников и разработки игр. Наш код, данные и обучающий конвейер доступны по адресу https://github.com/PzySeere/MetaSpatial.
English
We present MetaSpatial, the first reinforcement learning (RL)-based framework
designed to enhance 3D spatial reasoning in vision-language models (VLMs),
enabling real-time 3D scene generation without the need for hard-coded
optimizations. MetaSpatial addresses two core challenges: (i) the lack of
internalized 3D spatial reasoning in VLMs, which limits their ability to
generate realistic layouts, and (ii) the inefficiency of traditional supervised
fine-tuning (SFT) for layout generation tasks, as perfect ground truth
annotations are unavailable. Our key innovation is a multi-turn RL-based
optimization mechanism that integrates physics-aware constraints and rendered
image evaluations, ensuring generated 3D layouts are coherent, physically
plausible, and aesthetically consistent. Methodologically, MetaSpatial
introduces an adaptive, iterative reasoning process, where the VLM refines
spatial arrangements over multiple turns by analyzing rendered outputs,
improving scene coherence progressively. Empirical evaluations demonstrate that
MetaSpatial significantly enhances the spatial consistency and formatting
stability of various scale models. Post-training, object placements are more
realistic, aligned, and functionally coherent, validating the effectiveness of
RL for 3D spatial reasoning in metaverse, AR/VR, digital twins, and game
development applications. Our code, data, and training pipeline are publicly
available at https://github.com/PzySeere/MetaSpatial.Summary
AI-Generated Summary