ChatPaper.aiChatPaper

Inférer des scènes 4D compositionnelles sans jamais en avoir vu une

Inferring Compositional 4D Scenes without Ever Seeing One

December 4, 2025
papers.authors: Ahmet Berke Gokmen, Ajad Chhatkuli, Luc Van Gool, Danda Pani Paudel
cs.AI

papers.abstract

Les scènes du monde réel sont souvent composées de plusieurs objets statiques et dynamiques. Capturer leurs structures quadridimensionnelles, leur composition et leur configuration spatio-temporelle in-situ, bien qu'extrêmement intéressant, est tout aussi difficile. Par conséquent, les travaux existants se concentrent souvent sur un objet à la fois, tout en s'appuyant sur un modèle de forme paramétrique spécifique à une catégorie pour les objets dynamiques. Cela peut conduire à des configurations de scènes incohérentes, en plus d'être limité aux catégories d'objets modélisées. Nous proposons COM4D (Compositional 4D), une méthode qui prédit de manière cohérente et conjointe la structure et la configuration spatio-temporelle d'objets 4D/3D en utilisant uniquement une supervision par objets multiples statiques ou par objet dynamique unique. Nous y parvenons grâce à un entraînement soigneusement conçu des attentions spatiales et temporelles sur une entrée vidéo 2D. L'entraînement est désentremêlé en un apprentissage des compositions d'objets d'une part, et de la dynamique d'un objet unique tout au long de la vidéo d'autre part, évitant ainsi complètement toute dépendance à des données d'entraînement compositionnelles 4D. Au moment de l'inférence, notre mécanisme proposé de mélange d'attention combine ces attentions apprises indépendamment, sans nécessiter aucun exemple de composition 4D. En alternant entre le raisonnement spatial et temporel, COM4D reconstruit des scènes 4D complètes et persistantes avec plusieurs objets en interaction directement à partir de vidéos monoculaires. De plus, COM4D fournit des résultats à la pointe de l'état de l'art dans les problèmes distincts existants de reconstruction 4D d'objets et de reconstruction 3D compositionnelle, bien qu'étant purement piloté par les données.
English
Scenes in the real world are often composed of several static and dynamic objects. Capturing their 4-dimensional structures, composition and spatio-temporal configuration in-the-wild, though extremely interesting, is equally hard. Therefore, existing works often focus on one object at a time, while relying on some category-specific parametric shape model for dynamic objects. This can lead to inconsistent scene configurations, in addition to being limited to the modeled object categories. We propose COM4D (Compositional 4D), a method that consistently and jointly predicts the structure and spatio-temporal configuration of 4D/3D objects using only static multi-object or dynamic single object supervision. We achieve this by a carefully designed training of spatial and temporal attentions on 2D video input. The training is disentangled into learning from object compositions on the one hand, and single object dynamics throughout the video on the other, thus completely avoiding reliance on 4D compositional training data. At inference time, our proposed attention mixing mechanism combines these independently learned attentions, without requiring any 4D composition examples. By alternating between spatial and temporal reasoning, COM4D reconstructs complete and persistent 4D scenes with multiple interacting objects directly from monocular videos. Furthermore, COM4D provides state-of-the-art results in existing separate problems of 4D object and composed 3D reconstruction despite being purely data-driven.
PDF22December 17, 2025