Inferire Scene Composizionali 4D Senza Averne Mai Vista Una
Inferring Compositional 4D Scenes without Ever Seeing One
December 4, 2025
Autori: Ahmet Berke Gokmen, Ajad Chhatkuli, Luc Van Gool, Danda Pani Paudel
cs.AI
Abstract
Le scene del mondo reale sono spesso composte da diversi oggetti statici e dinamici. Catturarne le strutture quadridimensionali, la composizione e la configurazione spazio-temporale in contesti non controllati, sebbene estremamente interessante, è altrettanto difficile. Pertanto, i lavori esistenti si concentrano spesso su un oggetto alla volta, basandosi su modelli di forma parametrici specifici per categoria per gli oggetti dinamici. Ciò può portare a configurazioni di scene inconsistenti, oltre a essere limitato alle categorie di oggetti modellate. Proponiamo COM4D (Composizionale 4D), un metodo che prevede in modo coerente e congiunto la struttura e la configurazione spazio-temporale di oggetti 4D/3D utilizzando esclusivamente una supervisione basata su oggetti multipli statici o su oggetti singoli dinamici. Raggiungiamo questo obiettivo attraverso un addestramento accuratamente progettato di attenzioni spaziali e temporali su input video 2D. L'addestramento è scomposto nell'apprendimento da composizioni di oggetti da un lato, e nella dinamica di oggetti singoli lungo il video dall'altro, evitando così completamente la dipendenza da dati di addestramento composizionali 4D. Al momento dell'inferenza, il nostro meccanismo di mixing delle attenzioni combina queste attenzioni apprese indipendentemente, senza richiedere alcun esempio di composizione 4D. Alternando il ragionamento spaziale e temporale, COM4D ricostruisce scene 4D complete e persistenti con più oggetti interagenti direttamente da video monoculari. Inoltre, COM4D fornisce risultati all'avanguardia nei problemi separati esistenti della ricostruzione 4D di oggetti e della ricostruzione 3D composizionale, nonostante sia puramente basato sui dati.
English
Scenes in the real world are often composed of several static and dynamic objects. Capturing their 4-dimensional structures, composition and spatio-temporal configuration in-the-wild, though extremely interesting, is equally hard. Therefore, existing works often focus on one object at a time, while relying on some category-specific parametric shape model for dynamic objects. This can lead to inconsistent scene configurations, in addition to being limited to the modeled object categories. We propose COM4D (Compositional 4D), a method that consistently and jointly predicts the structure and spatio-temporal configuration of 4D/3D objects using only static multi-object or dynamic single object supervision. We achieve this by a carefully designed training of spatial and temporal attentions on 2D video input. The training is disentangled into learning from object compositions on the one hand, and single object dynamics throughout the video on the other, thus completely avoiding reliance on 4D compositional training data. At inference time, our proposed attention mixing mechanism combines these independently learned attentions, without requiring any 4D composition examples. By alternating between spatial and temporal reasoning, COM4D reconstructs complete and persistent 4D scenes with multiple interacting objects directly from monocular videos. Furthermore, COM4D provides state-of-the-art results in existing separate problems of 4D object and composed 3D reconstruction despite being purely data-driven.