I-Scene: 3D-Instanzmodelle sind implizite generalisierbare Raumlerner
I-Scene: 3D Instance Models are Implicit Generalizable Spatial Learners
December 15, 2025
papers.authors: Lu Ling, Yunhao Ge, Yichen Sheng, Aniket Bera
cs.AI
papers.abstract
Generalisierung bleibt die zentrale Herausforderung für die interaktive 3D-Szenengenerierung. Bisherige lernbasierte Ansätze verankern das räumliche Verständnis in begrenzten Szenendatensätzen, was die Generalisierung auf neue Layouts einschränkt. Stattdessen reprogrammieren wir einen vortrainierten 3D-Instanzgenerator, um als Szenenlerner zu agieren, und ersetzen datensatzgebundene Supervision durch modellzentrierte räumliche Aufsicht. Diese Reprogrammierung erschließt das übertragbare räumliche Wissen des Generators und ermöglicht die Generalisierung auf ungesehene Layouts und neuartige Objektkompositionen. Bemerkenswerterweise entsteht räumliches Reasoning selbst dann, wenn die Trainingsszenen aus zufällig zusammengesetzten Objekten bestehen. Dies zeigt, dass die übertragbare Szenenpräferenz des Generators ein reichhaltiges Lernsignal für das Ableiten von Nähe, Stützung und Symmetrie aus rein geometrischen Hinweisen liefert. Anstelle des weit verbreiteten kanonischen Raums setzen wir diese Erkenntnis mit einer sichtzentrierten Formulierung des Szenenraums um, was einen vollständig vorwärtsgerichteten, generalisierbaren Szenengenerator ergibt, der räumliche Beziehungen direkt vom Instanzmodell lernt. Quantitative und qualitative Ergebnisse zeigen, dass ein 3D-Instanzgenerator ein impliziter räumlicher Lerner und Reasoner ist und den Weg zu Foundation-Modellen für interaktives 3D-Szenenverständnis und -generierung weist. Projektseite: https://luling06.github.io/I-Scene-project/
English
Generalization remains the central challenge for interactive 3D scene generation. Existing learning-based approaches ground spatial understanding in limited scene dataset, restricting generalization to new layouts. We instead reprogram a pre-trained 3D instance generator to act as a scene level learner, replacing dataset-bounded supervision with model-centric spatial supervision. This reprogramming unlocks the generator transferable spatial knowledge, enabling generalization to unseen layouts and novel object compositions. Remarkably, spatial reasoning still emerges even when the training scenes are randomly composed objects. This demonstrates that the generator's transferable scene prior provides a rich learning signal for inferring proximity, support, and symmetry from purely geometric cues. Replacing widely used canonical space, we instantiate this insight with a view-centric formulation of the scene space, yielding a fully feed-forward, generalizable scene generator that learns spatial relations directly from the instance model. Quantitative and qualitative results show that a 3D instance generator is an implicit spatial learner and reasoner, pointing toward foundation models for interactive 3D scene understanding and generation. Project page: https://luling06.github.io/I-Scene-project/