ChatPaper.aiChatPaper

I-Scene: I Modelli 3D di Istanza sono Apprendenti Spaziali Impliciti e Generalizzabili

I-Scene: 3D Instance Models are Implicit Generalizable Spatial Learners

December 15, 2025
Autori: Lu Ling, Yunhao Ge, Yichen Sheng, Aniket Bera
cs.AI

Abstract

La generalizzazione rimane la sfida centrale per la generazione interattiva di scene 3D. Gli approcci esistenti basati sull'apprendimento fondano la comprensione spaziale su dataset di scene limitati, limitando la generalizzazione a nuovi layout. Noi, invece, riprogrammiamo un generatore di istanze 3D pre-addestrato per fungere da learner a livello di scena, sostituendo la supervisione vincolata al dataset con una supervisione spaziale centrata sul modello. Questa riprogrammazione sblocca la conoscenza spaziale trasferibile del generatore, consentendo la generalizzazione a layout non visti e a nuove composizioni di oggetti. Notevolmente, il ragionamento spaziale emerge anche quando le scene di addestramento sono composte da oggetti casuali. Ciò dimostra che il prior di scena trasferibile del generatore fornisce un segnale di apprendimento ricco per inferire prossimità, supporto e simmetria da indizi puramente geometrici. Sostituendo l'ampia-mente utilizzato spazio canonico, istanziamo questa intuizione con una formulazione vista-centrica dello spazio della scena, ottenendo un generatore di scene completamente feed-forward e generalizzabile che apprende le relazioni spaziali direttamente dal modello di istanza. I risultati quantitativi e qualitativi mostrano che un generatore di istanze 3D è un learner e ragionatore spaziale implicito, indicando la strada verso modelli di fondazione per la comprensione e generazione interattiva di scene 3D. Pagina del progetto: https://luling06.github.io/I-Scene-project/
English
Generalization remains the central challenge for interactive 3D scene generation. Existing learning-based approaches ground spatial understanding in limited scene dataset, restricting generalization to new layouts. We instead reprogram a pre-trained 3D instance generator to act as a scene level learner, replacing dataset-bounded supervision with model-centric spatial supervision. This reprogramming unlocks the generator transferable spatial knowledge, enabling generalization to unseen layouts and novel object compositions. Remarkably, spatial reasoning still emerges even when the training scenes are randomly composed objects. This demonstrates that the generator's transferable scene prior provides a rich learning signal for inferring proximity, support, and symmetry from purely geometric cues. Replacing widely used canonical space, we instantiate this insight with a view-centric formulation of the scene space, yielding a fully feed-forward, generalizable scene generator that learns spatial relations directly from the instance model. Quantitative and qualitative results show that a 3D instance generator is an implicit spatial learner and reasoner, pointing toward foundation models for interactive 3D scene understanding and generation. Project page: https://luling06.github.io/I-Scene-project/
PDF22December 19, 2025