4D 장면을 한 번도 보지 않고 구성적 장면 추론하기
Inferring Compositional 4D Scenes without Ever Seeing One
December 4, 2025
저자: Ahmet Berke Gokmen, Ajad Chhatkuli, Luc Van Gool, Danda Pani Paudel
cs.AI
초록
실제 세계의 장면은 종종 여러 정적 및 동적 객체로 구성됩니다. 이러한 객체들의 4차원 구조, 구성, 그리고 실제 환경에서의 시공간적 배치를 포착하는 것은 매우 흥미롭지만 동등하게 어려운 과제입니다. 따라서 기존 연구들은 주로 한 번에 하나의 객체에 집중하며, 동적 객체에 대해 범주별 파라미터적 형태 모델에 의존해 왔습니다. 이는 모델링된 객체 범주로 제한될 뿐만 아니라 일관성 없는 장면 구성을 초래할 수 있습니다. 우리는 정적 다중 객체 또는 동적 단일 객체 감독만을 사용하여 4D/3D 객체의 구조와 시공간적 구성을 일관되게 공동 예측하는 방법인 COM4D(Compositional 4D)를 제안합니다. 이를 위해 2D 비디오 입력에 대한 공간 및 시간 어텐션을 신중하게 설계하여 학습을 수행합니다. 학습은 한편으로는 객체 구성에 대한 학습과, 다른 한편으로는 비디오 전반에 걸친 단일 객체 동역학 학습으로 분리되어 4D 구성 학습 데이터에 대한 의존성을 완전히 회피합니다. 추론 시에는 우리가 제안하는 어텐션 혼합 메커니즘이 이러한 독립적으로 학습된 어텐션들을 결합하며, 4D 구성 예시가 전혀 필요하지 않습니다. 공간 추론과 시간 추론을 번갈아 가며 수행함으로써, COM4D는 단안 비디오로부터 직접 여러 객체가 상호작용하는 완전하고 지속적인 4D 장면을 복원합니다. 더 나아가, COM4D는 순수하게 데이터 주도적 접근법임에도 불구하고, 4D 객체 재구성 및 구성적 3D 재구성이라는 기존의 개별 문제들에서 최첨단 결과를 제공합니다.
English
Scenes in the real world are often composed of several static and dynamic objects. Capturing their 4-dimensional structures, composition and spatio-temporal configuration in-the-wild, though extremely interesting, is equally hard. Therefore, existing works often focus on one object at a time, while relying on some category-specific parametric shape model for dynamic objects. This can lead to inconsistent scene configurations, in addition to being limited to the modeled object categories. We propose COM4D (Compositional 4D), a method that consistently and jointly predicts the structure and spatio-temporal configuration of 4D/3D objects using only static multi-object or dynamic single object supervision. We achieve this by a carefully designed training of spatial and temporal attentions on 2D video input. The training is disentangled into learning from object compositions on the one hand, and single object dynamics throughout the video on the other, thus completely avoiding reliance on 4D compositional training data. At inference time, our proposed attention mixing mechanism combines these independently learned attentions, without requiring any 4D composition examples. By alternating between spatial and temporal reasoning, COM4D reconstructs complete and persistent 4D scenes with multiple interacting objects directly from monocular videos. Furthermore, COM4D provides state-of-the-art results in existing separate problems of 4D object and composed 3D reconstruction despite being purely data-driven.