DIMO: Geração Diversificada de Movimentos 3D para Objetos Arbitrários
DIMO: Diverse 3D Motion Generation for Arbitrary Objects
November 10, 2025
Autores: Linzhan Mou, Jiahui Lei, Chen Wang, Lingjie Liu, Kostas Daniilidis
cs.AI
Resumo
Apresentamos o DIMO, uma abordagem generativa capaz de gerar movimentos 3D diversos para objetos arbitrários a partir de uma única imagem. A ideia central do nosso trabalho é aproveitar os *priors* ricos em modelos de vídeo bem treinados para extrair os padrões comuns de movimento e, em seguida, incorporá-los num espaço latente compartilhado de baixa dimensão. Especificamente, geramos primeiro vários vídeos do mesmo objeto com movimentos diversos. Depois, incorporamos cada movimento num vetor latente e treinamos um decodificador de movimento compartilhado para aprender a distribuição de movimentos representada por uma representação de movimento estruturada e compacta, ou seja, trajetórias de pontos-chave neurais. Os Gaussianos 3D canónicos são então conduzidos por estes pontos-chave e fundidos para modelar a geometria e a aparência. Durante o tempo de inferência com o espaço latente aprendido, podemos amostrar instantaneamente diversos movimentos 3D numa única passagem direta e suportar várias aplicações interessantes, incluindo interpolação de movimento 3D e geração de movimento guiada por linguagem. A nossa página do projeto está disponível em https://linzhanm.github.io/dimo.
English
We present DIMO, a generative approach capable of generating diverse 3D
motions for arbitrary objects from a single image. The core idea of our work is
to leverage the rich priors in well-trained video models to extract the common
motion patterns and then embed them into a shared low-dimensional latent space.
Specifically, we first generate multiple videos of the same object with diverse
motions. We then embed each motion into a latent vector and train a shared
motion decoder to learn the distribution of motions represented by a structured
and compact motion representation, i.e., neural key point trajectories. The
canonical 3D Gaussians are then driven by these key points and fused to model
the geometry and appearance. During inference time with learned latent space,
we can instantly sample diverse 3D motions in a single-forward pass and support
several interesting applications including 3D motion interpolation and
language-guided motion generation. Our project page is available at
https://linzhanm.github.io/dimo.