Het Afleiden van Samengestelde 4D-Scènes zonder Er Ooit Een Gezien te Hebben
Inferring Compositional 4D Scenes without Ever Seeing One
December 4, 2025
Auteurs: Ahmet Berke Gokmen, Ajad Chhatkuli, Luc Van Gool, Danda Pani Paudel
cs.AI
Samenvatting
Scènes in de echte wereld bestaan vaak uit verschillende statische en dynamische objecten. Het vastleggen van hun 4-dimensionale structuren, samenstelling en ruimtelijk-temporele configuratie in natuurlijke omstandigheden is uiterst interessant, maar evenzeer moeilijk. Daarom richten bestaande werken zich vaak op één object tegelijk, waarbij wordt vertrouwd op een categorie-specifiek parametrisch vormmodel voor dynamische objecten. Dit kan leiden tot inconsistente scèneconfiguraties, naast de beperking tot de gemodelleerde objectcategorieën. Wij stellen COM4D (Compositional 4D) voor, een methode die consistent en gezamenlijk de structuur en ruimtelijk-temporele configuratie van 4D/3D-objecten voorspelt, uitsluitend gebruikmakend van supervisie met statische multi-object of dynamische single-object gegevens. Dit bereiken we door een zorgvuldig ontworpen training van ruimtelijke en temporele aandacht op 2D-video-invoer. De training wordt ontward in het leren van objectcomposities enerzijds, en de dynamiek van individuele objecten door de video heen anderzijds, waardoor de afhankelijkheid van 4D-compositionele trainingsdata volledig wordt vermeden. Tijdens inferentie combineert ons voorgestelde aandachtmengmechanisme deze onafhankelijk geleerde aandachtspunten, zonder enige 4D-compositievoorbeelden nodig te hebben. Door af te wisselen tussen ruimtelijk en temporeel redeneren, reconstrueert COM4D complete en persistente 4D-scènes met meerdere interagerende objecten rechtstreeks uit monocular video's. Bovendien levert COM4D state-of-the-art resultaten op voor bestaande afzonderlijke problemen van 4D-object- en samengestelde 3D-reconstructie, ondanks het puur data-gedreven karakter.
English
Scenes in the real world are often composed of several static and dynamic objects. Capturing their 4-dimensional structures, composition and spatio-temporal configuration in-the-wild, though extremely interesting, is equally hard. Therefore, existing works often focus on one object at a time, while relying on some category-specific parametric shape model for dynamic objects. This can lead to inconsistent scene configurations, in addition to being limited to the modeled object categories. We propose COM4D (Compositional 4D), a method that consistently and jointly predicts the structure and spatio-temporal configuration of 4D/3D objects using only static multi-object or dynamic single object supervision. We achieve this by a carefully designed training of spatial and temporal attentions on 2D video input. The training is disentangled into learning from object compositions on the one hand, and single object dynamics throughout the video on the other, thus completely avoiding reliance on 4D compositional training data. At inference time, our proposed attention mixing mechanism combines these independently learned attentions, without requiring any 4D composition examples. By alternating between spatial and temporal reasoning, COM4D reconstructs complete and persistent 4D scenes with multiple interacting objects directly from monocular videos. Furthermore, COM4D provides state-of-the-art results in existing separate problems of 4D object and composed 3D reconstruction despite being purely data-driven.