未見の4Dシーン構成の推論
Inferring Compositional 4D Scenes without Ever Seeing One
December 4, 2025
著者: Ahmet Berke Gokmen, Ajad Chhatkuli, Luc Van Gool, Danda Pani Paudel
cs.AI
要旨
現実世界のシーンは、複数の静的および動的オブジェクトで構成されることが多い。それらの4次元構造、構成、時空間配置を実環境下で捉えることは、非常に興味深い一方で、同様に困難である。このため、既存研究は動的オブジェクトに対してカテゴリ固有のパラメトリック形状モデルに依存しつつ、一度に一つのオブジェクトに焦点を当てることが多い。これは、モデル化されたオブジェクトカテゴリに限定されることに加え、シーン構成の不整合を招きうる。我々は、COM4D(Compositional 4D)を提案する。これは、静的な多オブジェクトまたは動的な単一オブジェクトの教師信号のみを用いて、4D/3Dオブジェクトの構造と時空間配置を一貫して共同で推定する手法である。これを実現するために、2Dビデオ入力に対する空間的・時間的アテンションを注意深く設計した訓練を行う。訓練は、一方でオブジェクト構成からの学習と、他方でビデオ全体にわたる単一オブジェクトの動態の学習とに分離され、4Dの合成的な訓練データへの依存を完全に回避する。推論時には、提案するアテンションミキシング機構がこれらの独立して学習されたアテンションを結合し、4Dの合成事例を一切必要としない。空間推論と時間推論を交互に行うことで、COM4Dは単眼ビデオから直接、複数の相互作用するオブジェクトを含む完全かつ持続的な4Dシーンを復元する。さらに、COM4Dは純粋にデータ駆動であるにもかかわらず、4Dオブジェクト復元と合成的3D復元という既存の個別課題において state-of-the-art の結果を提供する。
English
Scenes in the real world are often composed of several static and dynamic objects. Capturing their 4-dimensional structures, composition and spatio-temporal configuration in-the-wild, though extremely interesting, is equally hard. Therefore, existing works often focus on one object at a time, while relying on some category-specific parametric shape model for dynamic objects. This can lead to inconsistent scene configurations, in addition to being limited to the modeled object categories. We propose COM4D (Compositional 4D), a method that consistently and jointly predicts the structure and spatio-temporal configuration of 4D/3D objects using only static multi-object or dynamic single object supervision. We achieve this by a carefully designed training of spatial and temporal attentions on 2D video input. The training is disentangled into learning from object compositions on the one hand, and single object dynamics throughout the video on the other, thus completely avoiding reliance on 4D compositional training data. At inference time, our proposed attention mixing mechanism combines these independently learned attentions, without requiring any 4D composition examples. By alternating between spatial and temporal reasoning, COM4D reconstructs complete and persistent 4D scenes with multiple interacting objects directly from monocular videos. Furthermore, COM4D provides state-of-the-art results in existing separate problems of 4D object and composed 3D reconstruction despite being purely data-driven.