ChatPaper.aiChatPaper

Kompositionelle 4D-Szenen ableiten, ohne jemals eine gesehen zu haben

Inferring Compositional 4D Scenes without Ever Seeing One

December 4, 2025
papers.authors: Ahmet Berke Gokmen, Ajad Chhatkuli, Luc Van Gool, Danda Pani Paudel
cs.AI

papers.abstract

Szenen in der realen Welt bestehen oft aus mehreren statischen und dynamischen Objekten. Die Erfassung ihrer 4-dimensionalen Strukturen, Zusammensetzung und raumzeitlichen Konfiguration unter natürlichen Bedingungen ist zwar äußerst interessant, aber ebenso schwierig. Daher konzentrieren sich bestehende Arbeiten oft auf jeweils ein Objekt und stützen sich dabei auf kategoriespezifische parametrische Formmodelle für dynamische Objekte. Dies kann zu inkonsistenten Szenenkonfigurationen führen und ist zudem auf die modellierten Objektkategorien beschränkt. Wir schlagen COM4D (Compositional 4D) vor, eine Methode, die konsistent und gemeinsam die Struktur und raumzeitliche Konfiguration von 4D/3D-Objekten allein unter Verwendung von statischer Multi-Objekt- oder dynamischer Single-Object-Supervision vorhersagt. Wir erreichen dies durch ein sorgfältig gestaltetes Training von räumlichen und zeitlichen Attention-Mechanismen auf 2D-Videoeingaben. Das Training wird entflochten in das Lernen von Objektkompositionen einerseits und der Dynamik einzelner Objekte im Videoverlauf andererseits, wodurch die Abhängigkeit von 4D-Kompositionstrainingsdaten vollständig vermieden wird. Zum Inferenzzeitpunkt kombiniert unser vorgeschlagener Attention-Mixing-Mechanismus diese unabhängig gelernten Attention-Mechanismen, ohne dass 4D-Kompositionsbeispiele erforderlich sind. Durch abwechselndes räumliches und zeitliches Reasoning rekonstruiert COM4D vollständige und persistente 4D-Szenen mit mehreren interagierenden Objekten direkt aus monokularen Videos. Darüber hinaus erzielt COM4D state-of-the-art Ergebnisse in bestehenden Teilproblemen der 4D-Objekt- und zusammengesetzten 3D-Rekonstruktion, obwohl es rein datengesteuert ist.
English
Scenes in the real world are often composed of several static and dynamic objects. Capturing their 4-dimensional structures, composition and spatio-temporal configuration in-the-wild, though extremely interesting, is equally hard. Therefore, existing works often focus on one object at a time, while relying on some category-specific parametric shape model for dynamic objects. This can lead to inconsistent scene configurations, in addition to being limited to the modeled object categories. We propose COM4D (Compositional 4D), a method that consistently and jointly predicts the structure and spatio-temporal configuration of 4D/3D objects using only static multi-object or dynamic single object supervision. We achieve this by a carefully designed training of spatial and temporal attentions on 2D video input. The training is disentangled into learning from object compositions on the one hand, and single object dynamics throughout the video on the other, thus completely avoiding reliance on 4D compositional training data. At inference time, our proposed attention mixing mechanism combines these independently learned attentions, without requiring any 4D composition examples. By alternating between spatial and temporal reasoning, COM4D reconstructs complete and persistent 4D scenes with multiple interacting objects directly from monocular videos. Furthermore, COM4D provides state-of-the-art results in existing separate problems of 4D object and composed 3D reconstruction despite being purely data-driven.
PDF22December 17, 2025