ChatPaper.aiChatPaper

DIMO: Generazione Diversificata di Movimenti 3D per Oggetti Arbitrari

DIMO: Diverse 3D Motion Generation for Arbitrary Objects

November 10, 2025
Autori: Linzhan Mou, Jiahui Lei, Chen Wang, Lingjie Liu, Kostas Daniilidis
cs.AI

Abstract

Presentiamo DIMO, un approccio generativo in grado di generare movimenti 3D diversificati per oggetti arbitrari a partire da una singola immagine. L'idea centrale del nostro lavoro è sfruttare i ricchi prior presenti in modelli video ben addestrati per estrarre i pattern di movimento comuni e incorporarli in uno spazio latente condiviso a bassa dimensionalità. Nello specifico, generiamo prima più video dello stesso oggetto con movimenti diversificati. Successivamente, incorporiamo ogni movimento in un vettore latente e addestriamo un decodificatore di movimento condiviso per apprendere la distribuzione dei movimenti rappresentata da una rappresentazione di movimento strutturata e compatta, ovvero le traiettorie neurali dei punti chiave. I Gaussiani 3D canonici sono quindi guidati da questi punti chiave e fusi per modellare la geometria e l'aspetto. Durante l'inferenza, con lo spazio latente appreso, possiamo campionare istantaneamente movimenti 3D diversificati in un singolo passaggio in avanti e supportare diverse applicazioni interessanti, tra cui l'interpolazione di movimento 3D e la generazione di movimento guidata dal linguaggio. La nostra pagina del progetto è disponibile all'indirizzo https://linzhanm.github.io/dimo.
English
We present DIMO, a generative approach capable of generating diverse 3D motions for arbitrary objects from a single image. The core idea of our work is to leverage the rich priors in well-trained video models to extract the common motion patterns and then embed them into a shared low-dimensional latent space. Specifically, we first generate multiple videos of the same object with diverse motions. We then embed each motion into a latent vector and train a shared motion decoder to learn the distribution of motions represented by a structured and compact motion representation, i.e., neural key point trajectories. The canonical 3D Gaussians are then driven by these key points and fused to model the geometry and appearance. During inference time with learned latent space, we can instantly sample diverse 3D motions in a single-forward pass and support several interesting applications including 3D motion interpolation and language-guided motion generation. Our project page is available at https://linzhanm.github.io/dimo.
PDF42December 2, 2025