ActionMesh: Generazione di Mesh 3D Animata con Diffusione 3D Temporale
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
January 22, 2026
Autori: Remy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier
cs.AI
Abstract
La generazione di oggetti 3D animati è al centro di molte applicazioni, ma la maggior parte dei lavori più avanzati è tipicamente difficile da applicare nella pratica a causa della loro configurazione limitata, dei lunghi tempi di esecuzione o della qualità non ottimale. Introduciamo ActionMesh, un modello generativo che predice mesh 3D "in azione" pronte per la produzione in modo feed-forward. Traendo ispirazione dai primi modelli video, la nostra intuizione chiave è modificare i modelli di diffusione 3D esistenti per includere un asse temporale, dando vita a un framework che abbiamo denominato "diffusione 3D temporale". Nello specifico, prima adattiamo la fase di diffusione 3D per generare una sequenza di latenti sincronizzati che rappresentano forme 3D variabili nel tempo e indipendenti. Secondo, progettiamo un autoencoder 3D temporale che traduce una sequenza di forme indipendenti nelle corrispondenti deformazioni di una forma di riferimento predefinita, permettendoci di costruire un'animazione. Combinando questi due componenti, ActionMesh genera mesh 3D animate da diversi input, come un video monoculare, una descrizione testuale o persino una mesh 3D con una prompt testuale che ne descrive l'animazione. Inoltre, rispetto agli approcci precedenti, il nostro metodo è veloce e produce risultati privi di rig, con topologia consistente, consentendo quindi rapide iterazioni e applicazioni seamless come la texturizzazione e il retargeting. Valutiamo il nostro modello su benchmark standard video-to-4D (Consistent4D, Objaverse) e riportiamo prestazioni all'avanguardia sia in accuratezza geometrica che in consistenza temporale, dimostrando che il nostro modello può fornire mesh 3D animate con velocità e qualità senza precedenti.
English
Generating animated 3D objects is at the heart of many applications, yet most advanced works are typically difficult to apply in practice because of their limited setup, their long runtime, or their limited quality. We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner. Drawing inspiration from early video models, our key insight is to modify existing 3D diffusion models to include a temporal axis, resulting in a framework we dubbed "temporal 3D diffusion". Specifically, we first adapt the 3D diffusion stage to generate a sequence of synchronized latents representing time-varying and independent 3D shapes. Second, we design a temporal 3D autoencoder that translates a sequence of independent shapes into the corresponding deformations of a pre-defined reference shape, allowing us to build an animation. Combining these two components, ActionMesh generates animated 3D meshes from different inputs like a monocular video, a text description, or even a 3D mesh with a text prompt describing its animation. Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting. We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.