ActionMesh: Geração de Malhas 3D Animadas com Difusão 3D Temporal
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
January 22, 2026
Autores: Remy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier
cs.AI
Resumo
A geração de objetos 3D animados está no cerne de muitas aplicações, mas a maioria dos trabalhos avançados é geralmente difícil de aplicar na prática devido à sua configuração limitada, ao seu longo tempo de execução ou à sua qualidade limitada. Apresentamos o ActionMesh, um modelo generativo que prevê malhas 3D prontas para produção "em ação" de maneira direta (feed-forward). Inspirados pelos primeiros modelos de vídeo, nossa ideia principal é modificar os modelos de difusão 3D existentes para incluir um eixo temporal, resultando em uma estrutura que denominamos "difusão 3D temporal". Especificamente, primeiro adaptamos o estágio de difusão 3D para gerar uma sequência de latentes sincronizados que representam formas 3D independentes e variantes no tempo. Em segundo lugar, projetamos um autoencoder 3D temporal que traduz uma sequência de formas independentes nas deformações correspondentes de uma forma de referência pré-definida, permitindo-nos construir uma animação. Combinando esses dois componentes, o ActionMesh gera malhas 3D animadas a partir de diferentes entradas, como um vídeo monocul
English
Generating animated 3D objects is at the heart of many applications, yet most advanced works are typically difficult to apply in practice because of their limited setup, their long runtime, or their limited quality. We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner. Drawing inspiration from early video models, our key insight is to modify existing 3D diffusion models to include a temporal axis, resulting in a framework we dubbed "temporal 3D diffusion". Specifically, we first adapt the 3D diffusion stage to generate a sequence of synchronized latents representing time-varying and independent 3D shapes. Second, we design a temporal 3D autoencoder that translates a sequence of independent shapes into the corresponding deformations of a pre-defined reference shape, allowing us to build an animation. Combining these two components, ActionMesh generates animated 3D meshes from different inputs like a monocular video, a text description, or even a 3D mesh with a text prompt describing its animation. Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting. We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.