ActionMesh: Animierte 3D-Mesh-Generierung mit temporärer 3D-Diffusion
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
January 22, 2026
papers.authors: Remy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier
cs.AI
papers.abstract
Die Erzeugung animierter 3D-Objekte ist Kernbestandteil vieler Anwendungen, doch die meisten fortgeschrittenen Arbeiten sind in der Praxis oft schwer anwendbar, da sie einen begrenzten Aufbau, lange Laufzeiten oder eine eingeschränkte Qualität aufweisen. Wir stellen ActionMesh vor, ein generatives Modell, das direkt einsetzbare 3D-Meshes „in Aktion“ auf direktem Wege (feed-forward) erzeugt. Inspiriert von frühen Videomodellen besteht unsere zentrale Erkenntnis darin, bestehende 3D-Diffusionsmodelle so zu erweitern, dass sie eine Zeitachse einbeziehen – ein Rahmenwerk, das wir als „temporale 3D-Diffusion“ bezeichnen. Konkret passen wir zunächst die 3D-Diffusionsstufe an, um eine Sequenz synchronisierter Latent-Variablen zu erzeugen, die zeitlich veränderliche und unabhängige 3D-Formen repräsentieren. Zweitens entwerfen wir einen temporalen 3D-Autoencoder, der eine Sequenz unabhängiger Formen in die entsprechenden Deformationen einer vordefinierten Referenzform übersetzt, was uns ermöglicht, eine Animation zu erstellen. Durch die Kombination dieser beiden Komponenten generiert ActionMesh animierte 3D-Meshes aus verschiedenen Eingaben wie einem monokularen Video, einer Textbeschreibung oder sogar einem 3D-Mesh mit einer Textaufforderung, die seine Animation beschreibt. Darüber hinaus ist unsere Methode im Vergleich zu früheren Ansätzen schnell und erzeugt ergebnisse, die ohne Skelettrig auskommen und topologiekonsistent sind, was eine schnelle Iteration und nahtlose Anwendungen wie Texturierung und Retargeting ermöglicht. Wir evaluieren unser Modell anhand standardisierter Video-zu-4D-Benchmarks (Consistent4D, Objaverse) und berichten von state-of-the-art-Leistungen sowohl in Bezug auf geometrische Genauigkeit als auch temporale Konsistenz. Dies zeigt, dass unser Modell animierte 3D-Meshes mit bisher unerreichter Geschwindigkeit und Qualität liefern kann.
English
Generating animated 3D objects is at the heart of many applications, yet most advanced works are typically difficult to apply in practice because of their limited setup, their long runtime, or their limited quality. We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner. Drawing inspiration from early video models, our key insight is to modify existing 3D diffusion models to include a temporal axis, resulting in a framework we dubbed "temporal 3D diffusion". Specifically, we first adapt the 3D diffusion stage to generate a sequence of synchronized latents representing time-varying and independent 3D shapes. Second, we design a temporal 3D autoencoder that translates a sequence of independent shapes into the corresponding deformations of a pre-defined reference shape, allowing us to build an animation. Combining these two components, ActionMesh generates animated 3D meshes from different inputs like a monocular video, a text description, or even a 3D mesh with a text prompt describing its animation. Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting. We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.