I-Scene: Los Modelos de Instancia 3D son Aprendices Espaciales Implícitos y Generalizables
I-Scene: 3D Instance Models are Implicit Generalizable Spatial Learners
December 15, 2025
Autores: Lu Ling, Yunhao Ge, Yichen Sheng, Aniket Bera
cs.AI
Resumen
La generalización sigue siendo el desafío central para la generación interactiva de escenas 3D. Los enfoques basados en aprendizaje existentes fundamentan la comprensión espacial en conjuntos de datos de escenas limitados, lo que restringe la generalización a nuevos diseños. En su lugar, reprogramamos un generador de instancias 3D preentrenado para que actúe como un aprendiz a nivel de escena, reemplazando la supervisión limitada a conjuntos de datos con una supervisión espacial centrada en el modelo. Esta reprogramación desbloquea el conocimiento espacial transferible del generador, permitiendo la generalización a diseños no vistos y nuevas composiciones de objetos. Notablemente, el razonamiento espacial aún emerge incluso cuando las escenas de entrenamiento son objetos compuestos aleatoriamente. Esto demuestra que el conocimiento previo transferible de escenas del generador proporciona una señal de aprendizaje enriquecida para inferir proximidad, soporte y simetría a partir de puramente señales geométricas. Reemplazando el espacio canónico ampliamente utilizado, materializamos esta idea con una formulación centrada en la vista del espacio escénico, dando lugar a un generador de escenas completamente feed-forward y generalizable que aprende relaciones espaciales directamente del modelo de instancia. Los resultados cuantitativos y cualitativos muestran que un generador de instancias 3D es un aprendiz y razonador espacial implícito, apuntando hacia modelos fundacionales para la comprensión y generación interactiva de escenas 3D. Página del proyecto: https://luling06.github.io/I-Scene-project/
English
Generalization remains the central challenge for interactive 3D scene generation. Existing learning-based approaches ground spatial understanding in limited scene dataset, restricting generalization to new layouts. We instead reprogram a pre-trained 3D instance generator to act as a scene level learner, replacing dataset-bounded supervision with model-centric spatial supervision. This reprogramming unlocks the generator transferable spatial knowledge, enabling generalization to unseen layouts and novel object compositions. Remarkably, spatial reasoning still emerges even when the training scenes are randomly composed objects. This demonstrates that the generator's transferable scene prior provides a rich learning signal for inferring proximity, support, and symmetry from purely geometric cues. Replacing widely used canonical space, we instantiate this insight with a view-centric formulation of the scene space, yielding a fully feed-forward, generalizable scene generator that learns spatial relations directly from the instance model. Quantitative and qualitative results show that a 3D instance generator is an implicit spatial learner and reasoner, pointing toward foundation models for interactive 3D scene understanding and generation. Project page: https://luling06.github.io/I-Scene-project/