MetaSpatial: Fortaleciendo el Razonamiento Espacial 3D en los Modelos de Lenguaje Visual para el Metaverso

Resumen

Presentamos MetaSpatial, el primer marco basado en aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado para mejorar el razonamiento espacial 3D en modelos de visión y lenguaje (VLMs), permitiendo la generación de escenas 3D en tiempo real sin necesidad de optimizaciones predefinidas. MetaSpatial aborda dos desafíos principales: (i) la falta de razonamiento espacial 3D internalizado en los VLMs, lo que limita su capacidad para generar diseños realistas, y (ii) la ineficiencia del ajuste fino supervisado tradicional (SFT) para tareas de generación de diseños, ya que no se dispone de anotaciones de referencia perfectas. Nuestra innovación clave es un mecanismo de optimización basado en RL de múltiples turnos que integra restricciones conscientes de la física y evaluaciones de imágenes renderizadas, asegurando que los diseños 3D generados sean coherentes, físicamente plausibles y estéticamente consistentes. Metodológicamente, MetaSpatial introduce un proceso de razonamiento iterativo y adaptativo, donde el VLM refina los arreglos espaciales a lo largo de múltiples turnos analizando los resultados renderizados, mejorando progresivamente la coherencia de la escena. Las evaluaciones empíricas demuestran que MetaSpatial mejora significativamente la consistencia espacial y la estabilidad de formato en varios modelos a escala. Después del entrenamiento, las ubicaciones de los objetos son más realistas, alineadas y funcionalmente coherentes, validando la efectividad del RL para el razonamiento espacial 3D en aplicaciones del metaverso, realidad aumentada/realidad virtual (AR/VR), gemelos digitales y desarrollo de videojuegos. Nuestro código, datos y pipeline de entrenamiento están disponibles públicamente en https://github.com/PzySeere/MetaSpatial.

English

We present MetaSpatial, the first reinforcement learning (RL)-based framework designed to enhance 3D spatial reasoning in vision-language models (VLMs), enabling real-time 3D scene generation without the need for hard-coded optimizations. MetaSpatial addresses two core challenges: (i) the lack of internalized 3D spatial reasoning in VLMs, which limits their ability to generate realistic layouts, and (ii) the inefficiency of traditional supervised fine-tuning (SFT) for layout generation tasks, as perfect ground truth annotations are unavailable. Our key innovation is a multi-turn RL-based optimization mechanism that integrates physics-aware constraints and rendered image evaluations, ensuring generated 3D layouts are coherent, physically plausible, and aesthetically consistent. Methodologically, MetaSpatial introduces an adaptive, iterative reasoning process, where the VLM refines spatial arrangements over multiple turns by analyzing rendered outputs, improving scene coherence progressively. Empirical evaluations demonstrate that MetaSpatial significantly enhances the spatial consistency and formatting stability of various scale models. Post-training, object placements are more realistic, aligned, and functionally coherent, validating the effectiveness of RL for 3D spatial reasoning in metaverse, AR/VR, digital twins, and game development applications. Our code, data, and training pipeline are publicly available at https://github.com/PzySeere/MetaSpatial.

MetaSpatial: Fortaleciendo el Razonamiento Espacial 3D en los Modelos de Lenguaje Visual para el Metaverso

MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse

Resumen

Support