I-Scene: Modelos de Instância 3D são Aprendizes Espaciais Implícitos e Generalizáveis

Resumo

A generalização permanece o principal desafio para a geração interativa de cenas 3D. As abordagens existentes baseadas em aprendizagem fundamentam a compreensão espacial em conjuntos de dados de cenas limitados, restringindo a generalização para novos layouts. Em vez disso, reprogramamos um gerador de instâncias 3D pré-treinado para atuar como um aprendiz em nível de cena, substituindo a supervisão limitada ao conjunto de dados por uma supervisão espencial centrada no modelo. Esta reprogramação liberta o conhecimento espacial transferível do gerador, permitindo a generalização para layouts não vistos e novas composições de objetos. Notavelmente, o raciocínio espacial ainda emerge mesmo quando as cenas de treino são compostas aleatoriamente por objetos. Isto demonstra que o conhecimento prévio de cena transferível do gerador fornece um sinal de aprendizagem rico para inferir proximidade, suporte e simetria a partir de pistas puramente geométricas. Substituindo o espaço canónico amplamente utilizado, instanciamos esta perceção com uma formulação centrada na vista do espaço da cena, resultando num gerador de cenas totalmente feed-forward e generalizável que aprende relações espaciais diretamente a partir do modelo de instância. Resultados quantitativos e qualitativos mostram que um gerador de instâncias 3D é um aprendiz e raciocinador espacial implícito, apontando para modelos de base para a compreensão e geração interativa de cenas 3D. Página do projeto: https://luling06.github.io/I-Scene-project/

English

Generalization remains the central challenge for interactive 3D scene generation. Existing learning-based approaches ground spatial understanding in limited scene dataset, restricting generalization to new layouts. We instead reprogram a pre-trained 3D instance generator to act as a scene level learner, replacing dataset-bounded supervision with model-centric spatial supervision. This reprogramming unlocks the generator transferable spatial knowledge, enabling generalization to unseen layouts and novel object compositions. Remarkably, spatial reasoning still emerges even when the training scenes are randomly composed objects. This demonstrates that the generator's transferable scene prior provides a rich learning signal for inferring proximity, support, and symmetry from purely geometric cues. Replacing widely used canonical space, we instantiate this insight with a view-centric formulation of the scene space, yielding a fully feed-forward, generalizable scene generator that learns spatial relations directly from the instance model. Quantitative and qualitative results show that a 3D instance generator is an implicit spatial learner and reasoner, pointing toward foundation models for interactive 3D scene understanding and generation. Project page: https://luling06.github.io/I-Scene-project/