ActionMesh: Geanimeerde 3D Mesh-generatie met Temporele 3D Diffusie
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
January 22, 2026
Auteurs: Remy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier
cs.AI
Samenvatting
Het genereren van geanimeerde 3D-objecten staat centraal in veel toepassingen, maar de meeste geavanceerde werken zijn in de praktijk vaak moeilijk toe te passen vanwege hun beperkte opzet, lange rekentijd of beperkte kwaliteit. Wij introduceren ActionMesh, een generatief model dat op productieniveau gereed zijnde 3D-meshes "in actie" voorspelt op een feed-forward-manier. Geïnspireerd door vroege videomodellen, is ons belangrijkste inzicht dat bestaande 3D-diffusiemodellen moeten worden aangepast om een temporele as op te nemen, wat resulteert in een framework dat wij "temporale 3D-diffusie" hebben genoemd. Concreet passen we eerst de 3D-diffusiefase aan om een reeks gesynchroniseerde latente representaties te genereren die tijd-variërende en onafhankelijke 3D-vormen weergeven. Ten tweede ontwerpen we een temporele 3D-auto-encoder die een reeks onafhankelijke vormen vertaalt naar de corresponderende vervormingen van een vooraf gedefinieerde referentievorm, waardoor we een animatie kunnen opbouwen. Door deze twee componenten te combineren, genereert ActionMesh geanimeerde 3D-meshes vanuit verschillende invoeren, zoals een monocular video, een tekstbeschrijving, of zelfs een 3D-mesh met een tekstprompt die de animatie beschrijft. Daarnaast is onze methode, vergeleken met eerdere benaderingen, snel en produceert het resultaten die rig-vrij en topologie-consistent zijn, waardoor snelle iteratie en naadloze toepassingen zoals texturering en retargeting mogelijk worden. We evalueren ons model op standaard video-naar-4D benchmarks (Consistent4D, Objaverse) en melden state-of-the-art prestaties op zowel geometrische nauwkeurigheid als temporele consistentie, wat aantoont dat ons model geanimeerde 3D-meshes kan leveren met ongekende snelheid en kwaliteit.
English
Generating animated 3D objects is at the heart of many applications, yet most advanced works are typically difficult to apply in practice because of their limited setup, their long runtime, or their limited quality. We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner. Drawing inspiration from early video models, our key insight is to modify existing 3D diffusion models to include a temporal axis, resulting in a framework we dubbed "temporal 3D diffusion". Specifically, we first adapt the 3D diffusion stage to generate a sequence of synchronized latents representing time-varying and independent 3D shapes. Second, we design a temporal 3D autoencoder that translates a sequence of independent shapes into the corresponding deformations of a pre-defined reference shape, allowing us to build an animation. Combining these two components, ActionMesh generates animated 3D meshes from different inputs like a monocular video, a text description, or even a 3D mesh with a text prompt describing its animation. Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting. We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.