I-Scène : Les modèles d'instances 3D sont des apprenants spatiaux généralisables implicites
I-Scene: 3D Instance Models are Implicit Generalizable Spatial Learners
December 15, 2025
papers.authors: Lu Ling, Yunhao Ge, Yichen Sheng, Aniket Bera
cs.AI
papers.abstract
La généralisation demeure le principal défi pour la génération interactive de scènes 3D. Les approches existantes basées sur l'apprentissage ancrent la compréhension spatiale dans des jeux de données de scènes limités, restreignant la généralisation à de nouvelles configurations. Nous reprogrammons plutôt un générateur d'instances 3D pré-entraîné pour qu'il agisse comme un apprenant au niveau scénique, remplaçant la supervision limitée aux données par une supervision spatiale centrée sur le modèle. Cette reprogrammation libère les connaissances spatiales transférables du générateur, permettant une généralisation à des configurations inédites et à des compositions d'objets novatrices. Fait remarquable, le raisonnement spatial émerge même lorsque les scènes d'entraînement sont composées d'objets aléatoires. Cela démontre que l'a priori scénique transférable du générateur fournit un signal d'apprentissage riche pour déduire la proximité, le support et la symétrie à partir de signaux purement géométriques. Remplaçant l'espace canonique largement utilisé, nous matérialisons cette intuition par une formulation centrée sur la vue de l'espace scénique, produisant un générateur de scènes entièrement feed-forward et généralisable qui apprend les relations spatiales directement à partir du modèle d'instance. Les résultats quantitatifs et qualitatifs montrent qu'un générateur d'instances 3D est un apprenant et raisonneur spatial implicite, ouvrant la voie à des modèles de fondation pour la compréhension et la génération interactives de scènes 3D. Page du projet : https://luling06.github.io/I-Scene-project/
English
Generalization remains the central challenge for interactive 3D scene generation. Existing learning-based approaches ground spatial understanding in limited scene dataset, restricting generalization to new layouts. We instead reprogram a pre-trained 3D instance generator to act as a scene level learner, replacing dataset-bounded supervision with model-centric spatial supervision. This reprogramming unlocks the generator transferable spatial knowledge, enabling generalization to unseen layouts and novel object compositions. Remarkably, spatial reasoning still emerges even when the training scenes are randomly composed objects. This demonstrates that the generator's transferable scene prior provides a rich learning signal for inferring proximity, support, and symmetry from purely geometric cues. Replacing widely used canonical space, we instantiate this insight with a view-centric formulation of the scene space, yielding a fully feed-forward, generalizable scene generator that learns spatial relations directly from the instance model. Quantitative and qualitative results show that a 3D instance generator is an implicit spatial learner and reasoner, pointing toward foundation models for interactive 3D scene understanding and generation. Project page: https://luling06.github.io/I-Scene-project/