DIMO: Generazione Diversificata di Movimenti 3D per Oggetti Arbitrari
DIMO: Diverse 3D Motion Generation for Arbitrary Objects
November 10, 2025
Autori: Linzhan Mou, Jiahui Lei, Chen Wang, Lingjie Liu, Kostas Daniilidis
cs.AI
Abstract
Presentiamo DIMO, un approccio generativo in grado di generare movimenti 3D diversificati per oggetti arbitrari a partire da una singola immagine. L'idea centrale del nostro lavoro è sfruttare i ricchi prior presenti in modelli video ben addestrati per estrarre i pattern di movimento comuni e incorporarli in uno spazio latente condiviso a bassa dimensionalità. Nello specifico, generiamo prima più video dello stesso oggetto con movimenti diversificati. Successivamente, incorporiamo ogni movimento in un vettore latente e addestriamo un decodificatore di movimento condiviso per apprendere la distribuzione dei movimenti rappresentata da una rappresentazione di movimento strutturata e compatta, ovvero le traiettorie neurali dei punti chiave. I Gaussiani 3D canonici sono quindi guidati da questi punti chiave e fusi per modellare la geometria e l'aspetto. Durante l'inferenza, con lo spazio latente appreso, possiamo campionare istantaneamente movimenti 3D diversificati in un singolo passaggio in avanti e supportare diverse applicazioni interessanti, tra cui l'interpolazione di movimento 3D e la generazione di movimento guidata dal linguaggio. La nostra pagina del progetto è disponibile all'indirizzo https://linzhanm.github.io/dimo.
English
We present DIMO, a generative approach capable of generating diverse 3D
motions for arbitrary objects from a single image. The core idea of our work is
to leverage the rich priors in well-trained video models to extract the common
motion patterns and then embed them into a shared low-dimensional latent space.
Specifically, we first generate multiple videos of the same object with diverse
motions. We then embed each motion into a latent vector and train a shared
motion decoder to learn the distribution of motions represented by a structured
and compact motion representation, i.e., neural key point trajectories. The
canonical 3D Gaussians are then driven by these key points and fused to model
the geometry and appearance. During inference time with learned latent space,
we can instantly sample diverse 3D motions in a single-forward pass and support
several interesting applications including 3D motion interpolation and
language-guided motion generation. Our project page is available at
https://linzhanm.github.io/dimo.