I-Scene: 3D-instantiemodellen zijn impliciete generaliseerbare ruimtelijke leerders
I-Scene: 3D Instance Models are Implicit Generalizable Spatial Learners
December 15, 2025
Auteurs: Lu Ling, Yunhao Ge, Yichen Sheng, Aniket Bera
cs.AI
Samenvatting
Generalisatie blijft de centrale uitdaging voor interactieve 3D-scènegeneratie. Bestaande op leren gebaseerde methoden grondvesten ruimtelijk begrip op beperkte scènedatasets, wat generalisatie naar nieuwe indelingen beperkt. Wij herprogrammeren in plaats daarvan een vooraf getrainde 3D-instantiegenerator om te fungeren als een leerling op scèneniveau, waarbij datasetgebonden supervisie wordt vervangen door modelgecentreerde ruimtelijke supervisie. Deze herprogrammering ontsluit de overdraagbare ruimtelijke kennis van de generator, waardoor generalisatie naar onzichtbare indelingen en nieuwe objectcomposities mogelijk wordt. Opmerkelijk genoeg ontstaat ruimtelijk redeneren zelfs wanneer de trainingsscènes uit willekeurig samengestelde objecten bestaan. Dit toont aan dat het overdraagbare scène-prior van de generator een rijke leersignaal biedt voor het afleiden van nabijheid, ondersteuning en symmetrie uit puur geometrische aanwijzingen. Als vervanging van de veelgebruikte canonieke ruimte, concretiseren we dit inzicht met een view-gecentreerde formulering van de scèneruimte, wat resulteert in een volledig feed-forward, generaliseerbare scènegenerator die ruimtelijke relaties direct leert vanuit het instantiemodel. Kwantitatieve en kwalitatieve resultaten tonen aan dat een 3D-instantiegenerator een impliciete ruimtelijke leerling en redeneerder is, wat wijst op foundation-modellen voor interactief 3D-scènebegrip en -generatie. Projectpagina: https://luling06.github.io/I-Scene-project/
English
Generalization remains the central challenge for interactive 3D scene generation. Existing learning-based approaches ground spatial understanding in limited scene dataset, restricting generalization to new layouts. We instead reprogram a pre-trained 3D instance generator to act as a scene level learner, replacing dataset-bounded supervision with model-centric spatial supervision. This reprogramming unlocks the generator transferable spatial knowledge, enabling generalization to unseen layouts and novel object compositions. Remarkably, spatial reasoning still emerges even when the training scenes are randomly composed objects. This demonstrates that the generator's transferable scene prior provides a rich learning signal for inferring proximity, support, and symmetry from purely geometric cues. Replacing widely used canonical space, we instantiate this insight with a view-centric formulation of the scene space, yielding a fully feed-forward, generalizable scene generator that learns spatial relations directly from the instance model. Quantitative and qualitative results show that a 3D instance generator is an implicit spatial learner and reasoner, pointing toward foundation models for interactive 3D scene understanding and generation. Project page: https://luling06.github.io/I-Scene-project/