ActionMesh : Génération de maillages 3D animés par diffusion temporelle 3D
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
January 22, 2026
papers.authors: Remy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier
cs.AI
papers.abstract
La génération d'objets 3D animés est au cœur de nombreuses applications, pourtant la plupart des travaux avancés sont généralement difficiles à appliquer en pratique en raison de leur configuration limitée, de leur temps d'exécution long ou de leur qualité restreinte. Nous présentons ActionMesh, un modèle génératif qui prédit de manière directe ("feed-forward") des maillages 3D prêts pour la production et "en action". En nous inspirant des premiers modèles vidéo, notre idée clé est de modifier les modèles de diffusion 3D existants pour inclure un axe temporel, aboutissant à un cadre que nous avons nommé "diffusion 3D temporelle". Concrètement, nous adaptons d'abord l'étape de diffusion 3D pour générer une séquence de latents synchronisés représentant des formes 3D indépendantes et variant dans le temps. Ensuite, nous concevons un autoencodeur 3D temporel qui traduit une séquence de formes indépendantes en les déformations correspondantes d'une forme de référence prédéfinie, nous permettant ainsi de construire une animation. En combinant ces deux composants, ActionMesh génère des maillages 3D animés à partir de différentes entrées, comme une vidéo monoculaire, une description textuelle, ou même un maillage 3D accompagné d'une instruction textuelle décrivant son animation. Par ailleurs, comparée aux approches précédentes, notre méthode est rapide et produit des résultats exempts de squelette ("rig-free") et à topologie cohérente, permettant ainsi une itération rapide et des applications transparentes comme le texturage et le transfert d'animation ("retargeting"). Nous évaluons notre modèle sur des benchmarks standards de conversion vidéo-en-4D (Consistent4D, Objaverse) et rapportons des performances à l'état de l'art en termes de précision géométrique et de cohérence temporelle, démontrant que notre modèle peut fournir des maillages 3D animés avec une rapidité et une qualité sans précédent.
English
Generating animated 3D objects is at the heart of many applications, yet most advanced works are typically difficult to apply in practice because of their limited setup, their long runtime, or their limited quality. We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner. Drawing inspiration from early video models, our key insight is to modify existing 3D diffusion models to include a temporal axis, resulting in a framework we dubbed "temporal 3D diffusion". Specifically, we first adapt the 3D diffusion stage to generate a sequence of synchronized latents representing time-varying and independent 3D shapes. Second, we design a temporal 3D autoencoder that translates a sequence of independent shapes into the corresponding deformations of a pre-defined reference shape, allowing us to build an animation. Combining these two components, ActionMesh generates animated 3D meshes from different inputs like a monocular video, a text description, or even a 3D mesh with a text prompt describing its animation. Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting. We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.