ActionMesh: Generación de Mallas 3D Animadas con Difusión 3D Temporal
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
January 22, 2026
Autores: Remy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier
cs.AI
Resumen
La generación de objetos 3D animados es fundamental para muchas aplicaciones, sin embargo, la mayoría de los trabajos más avanzados suelen ser difíciles de aplicar en la práctica debido a su configuración limitada, su largo tiempo de ejecución o su calidad restringida. Presentamos ActionMesh, un modelo generativo que predice mallas 3D listas para producción "en acción" de manera directa (feed-forward). Inspirándonos en los primeros modelos de video, nuestra idea clave es modificar los modelos de difusión 3D existentes para incluir un eje temporal, dando como resultado un marco que denominamos "difusión 3D temporal". Específicamente, primero adaptamos la etapa de difusión 3D para generar una secuencia de latentes sincronizados que representan formas 3D independientes y variables en el tiempo. En segundo lugar, diseñamos un autoencoder 3D temporal que traduce una secuencia de formas independientes en las deformaciones correspondientes de una forma de referencia predefinida, lo que nos permite construir una animación. Al combinar estos dos componentes, ActionMesh genera mallas 3D animadas a partir de diferentes entradas, como un video monocular, una descripción textual o incluso una malla 3D con un texto que describe su animación. Además, en comparación con enfoques anteriores, nuestro método es rápido y produce resultados que no requieren rigging y son topológicamente consistentes, permitiendo así una iteración rápida y aplicaciones fluidas como texturizado y retargeting. Evaluamos nuestro modelo en benchmarks estándar de video-a-4D (Consistent4D, Objaverse) y reportamos rendimientos de vanguardia tanto en precisión geométrica como en consistencia temporal, demostrando que nuestro modelo puede entregar mallas 3D animadas con una velocidad y calidad sin precedentes.
English
Generating animated 3D objects is at the heart of many applications, yet most advanced works are typically difficult to apply in practice because of their limited setup, their long runtime, or their limited quality. We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner. Drawing inspiration from early video models, our key insight is to modify existing 3D diffusion models to include a temporal axis, resulting in a framework we dubbed "temporal 3D diffusion". Specifically, we first adapt the 3D diffusion stage to generate a sequence of synchronized latents representing time-varying and independent 3D shapes. Second, we design a temporal 3D autoencoder that translates a sequence of independent shapes into the corresponding deformations of a pre-defined reference shape, allowing us to build an animation. Combining these two components, ActionMesh generates animated 3D meshes from different inputs like a monocular video, a text description, or even a 3D mesh with a text prompt describing its animation. Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting. We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.