MetaSpatial: Fortaleciendo el Razonamiento Espacial 3D en los Modelos de Lenguaje Visual para el Metaverso
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse
March 24, 2025
Autores: Zhenyu Pan, Han Liu
cs.AI
Resumen
Presentamos MetaSpatial, el primer marco basado en aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado para mejorar el razonamiento espacial 3D en modelos de visión y lenguaje (VLMs), permitiendo la generación de escenas 3D en tiempo real sin necesidad de optimizaciones predefinidas. MetaSpatial aborda dos desafíos principales: (i) la falta de razonamiento espacial 3D internalizado en los VLMs, lo que limita su capacidad para generar diseños realistas, y (ii) la ineficiencia del ajuste fino supervisado tradicional (SFT) para tareas de generación de diseños, ya que no se dispone de anotaciones de referencia perfectas. Nuestra innovación clave es un mecanismo de optimización basado en RL de múltiples turnos que integra restricciones conscientes de la física y evaluaciones de imágenes renderizadas, asegurando que los diseños 3D generados sean coherentes, físicamente plausibles y estéticamente consistentes. Metodológicamente, MetaSpatial introduce un proceso de razonamiento iterativo y adaptativo, donde el VLM refina los arreglos espaciales a lo largo de múltiples turnos analizando los resultados renderizados, mejorando progresivamente la coherencia de la escena. Las evaluaciones empíricas demuestran que MetaSpatial mejora significativamente la consistencia espacial y la estabilidad de formato en varios modelos a escala. Después del entrenamiento, las ubicaciones de los objetos son más realistas, alineadas y funcionalmente coherentes, validando la efectividad del RL para el razonamiento espacial 3D en aplicaciones del metaverso, realidad aumentada/realidad virtual (AR/VR), gemelos digitales y desarrollo de videojuegos. Nuestro código, datos y pipeline de entrenamiento están disponibles públicamente en https://github.com/PzySeere/MetaSpatial.
English
We present MetaSpatial, the first reinforcement learning (RL)-based framework
designed to enhance 3D spatial reasoning in vision-language models (VLMs),
enabling real-time 3D scene generation without the need for hard-coded
optimizations. MetaSpatial addresses two core challenges: (i) the lack of
internalized 3D spatial reasoning in VLMs, which limits their ability to
generate realistic layouts, and (ii) the inefficiency of traditional supervised
fine-tuning (SFT) for layout generation tasks, as perfect ground truth
annotations are unavailable. Our key innovation is a multi-turn RL-based
optimization mechanism that integrates physics-aware constraints and rendered
image evaluations, ensuring generated 3D layouts are coherent, physically
plausible, and aesthetically consistent. Methodologically, MetaSpatial
introduces an adaptive, iterative reasoning process, where the VLM refines
spatial arrangements over multiple turns by analyzing rendered outputs,
improving scene coherence progressively. Empirical evaluations demonstrate that
MetaSpatial significantly enhances the spatial consistency and formatting
stability of various scale models. Post-training, object placements are more
realistic, aligned, and functionally coherent, validating the effectiveness of
RL for 3D spatial reasoning in metaverse, AR/VR, digital twins, and game
development applications. Our code, data, and training pipeline are publicly
available at https://github.com/PzySeere/MetaSpatial.Summary
AI-Generated Summary