I-Scene: 3D-модели экземпляров являются неявными обобщаемыми пространственными обучающимися системами
I-Scene: 3D Instance Models are Implicit Generalizable Spatial Learners
December 15, 2025
Авторы: Lu Ling, Yunhao Ge, Yichen Sheng, Aniket Bera
cs.AI
Аннотация
Проблема обобщения остаётся ключевой задачей для интерактивной генерации 3D-сцен. Существующие подходы на основе машинного обучения формируют пространственное понимание на ограниченных наборах данных сцен, что ограничивает обобщение для новых компоновок. Вместо этого мы перепрограммируем предварительно обученный генератор 3D-объектов, чтобы он функционировал как обучающийся на уровне сцены, заменяя привязку к данным на модель-центрированный пространственный контроль. Это перепрограммирование раскрывает переносимые пространственные знания генератора, позволяя обобщать для неизвестных компоновок и новых композиций объектов. Примечательно, что пространственное мышление возникает даже тогда, когда обучающие сцены состоят из случайно составленных объектов. Это демонстрирует, что переносимое априорное знание о сцене, заложенное в генераторе, предоставляет богатый сигнал для обучения выводу близости, поддержки и симметрии на основе чисто геометрических признаков. Заменяя широко используемое каноническое пространство, мы реализуем этот подход через видово-центричную формулировку пространства сцены, создавая полностью прямой, обобщаемый генератор сцен, который изучает пространственные отношения непосредственно из модели объектов. Количественные и качественные результаты показывают, что 3D-генератор объектов является неявным пространственным учеником и системой логического вывода, указывая путь к базовым моделям для интерактивного понимания и генерации 3D-сцен. Страница проекта: https://luling06.github.io/I-Scene-project/
English
Generalization remains the central challenge for interactive 3D scene generation. Existing learning-based approaches ground spatial understanding in limited scene dataset, restricting generalization to new layouts. We instead reprogram a pre-trained 3D instance generator to act as a scene level learner, replacing dataset-bounded supervision with model-centric spatial supervision. This reprogramming unlocks the generator transferable spatial knowledge, enabling generalization to unseen layouts and novel object compositions. Remarkably, spatial reasoning still emerges even when the training scenes are randomly composed objects. This demonstrates that the generator's transferable scene prior provides a rich learning signal for inferring proximity, support, and symmetry from purely geometric cues. Replacing widely used canonical space, we instantiate this insight with a view-centric formulation of the scene space, yielding a fully feed-forward, generalizable scene generator that learns spatial relations directly from the instance model. Quantitative and qualitative results show that a 3D instance generator is an implicit spatial learner and reasoner, pointing toward foundation models for interactive 3D scene understanding and generation. Project page: https://luling06.github.io/I-Scene-project/