ChatPaper.aiChatPaper

DIMO: 任意のオブジェクトに対する多様な3Dモーション生成

DIMO: Diverse 3D Motion Generation for Arbitrary Objects

November 10, 2025
著者: Linzhan Mou, Jiahui Lei, Chen Wang, Lingjie Liu, Kostas Daniilidis
cs.AI

要旨

本論文では、単一画像から任意のオブジェクトの多様な3Dモーションを生成可能な生成手法DIMOを提案する。我々の手法の中核は、十分に学習されたビデオモデルが持つ豊富な事前知識を活用し、共通の運動パターンを抽出して共有の低次元潜在空間に埋め込むことにある。具体的には、まず同一オブジェクトの多様な運動を持つ複数のビデオを生成し、各運動を潜在ベクトルに埋め込んだ後、共有の運動デコーダを学習させる。これにより、構造化されたコンパクトな運動表現(神経キーポイント軌跡)で表される運動分布を学習する。正規化された3Dガウシアンはこれらのキーポイントによって駆動され、形状と外観をモデル化するために融合される。学習済み潜在空間を用いた推論時には、単一のフォワードパスで多様な3D運動を瞬時にサンプリングでき、3D運動補間や言語誘導型運動生成など複数の応用をサポートする。プロジェクトページはhttps://linzhanm.github.io/dimoで公開されている。
English
We present DIMO, a generative approach capable of generating diverse 3D motions for arbitrary objects from a single image. The core idea of our work is to leverage the rich priors in well-trained video models to extract the common motion patterns and then embed them into a shared low-dimensional latent space. Specifically, we first generate multiple videos of the same object with diverse motions. We then embed each motion into a latent vector and train a shared motion decoder to learn the distribution of motions represented by a structured and compact motion representation, i.e., neural key point trajectories. The canonical 3D Gaussians are then driven by these key points and fused to model the geometry and appearance. During inference time with learned latent space, we can instantly sample diverse 3D motions in a single-forward pass and support several interesting applications including 3D motion interpolation and language-guided motion generation. Our project page is available at https://linzhanm.github.io/dimo.
PDF42December 2, 2025