ChatPaper.aiChatPaper

DIMO: Geração Diversificada de Movimentos 3D para Objetos Arbitrários

DIMO: Diverse 3D Motion Generation for Arbitrary Objects

November 10, 2025
Autores: Linzhan Mou, Jiahui Lei, Chen Wang, Lingjie Liu, Kostas Daniilidis
cs.AI

Resumo

Apresentamos o DIMO, uma abordagem generativa capaz de gerar movimentos 3D diversos para objetos arbitrários a partir de uma única imagem. A ideia central do nosso trabalho é aproveitar os *priors* ricos em modelos de vídeo bem treinados para extrair os padrões comuns de movimento e, em seguida, incorporá-los num espaço latente compartilhado de baixa dimensão. Especificamente, geramos primeiro vários vídeos do mesmo objeto com movimentos diversos. Depois, incorporamos cada movimento num vetor latente e treinamos um decodificador de movimento compartilhado para aprender a distribuição de movimentos representada por uma representação de movimento estruturada e compacta, ou seja, trajetórias de pontos-chave neurais. Os Gaussianos 3D canónicos são então conduzidos por estes pontos-chave e fundidos para modelar a geometria e a aparência. Durante o tempo de inferência com o espaço latente aprendido, podemos amostrar instantaneamente diversos movimentos 3D numa única passagem direta e suportar várias aplicações interessantes, incluindo interpolação de movimento 3D e geração de movimento guiada por linguagem. A nossa página do projeto está disponível em https://linzhanm.github.io/dimo.
English
We present DIMO, a generative approach capable of generating diverse 3D motions for arbitrary objects from a single image. The core idea of our work is to leverage the rich priors in well-trained video models to extract the common motion patterns and then embed them into a shared low-dimensional latent space. Specifically, we first generate multiple videos of the same object with diverse motions. We then embed each motion into a latent vector and train a shared motion decoder to learn the distribution of motions represented by a structured and compact motion representation, i.e., neural key point trajectories. The canonical 3D Gaussians are then driven by these key points and fused to model the geometry and appearance. During inference time with learned latent space, we can instantly sample diverse 3D motions in a single-forward pass and support several interesting applications including 3D motion interpolation and language-guided motion generation. Our project page is available at https://linzhanm.github.io/dimo.
PDF52February 27, 2026