ActionMesh: Генерация анимированных 3D-мешей с помощью временной 3D-диффузии
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
January 22, 2026
Авторы: Remy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier
cs.AI
Аннотация
Создание анимированных 3D-объектов является ключевой задачей для многих приложений, однако большинство передовых разработок зачастую сложно применить на практике из-за ограниченных условий работы, длительного времени выполнения или недостаточного качества. Мы представляем ActionMesh — генеративную модель, которая предсказывает готовые к использованию 3D-сетки «в действии» прямым проходом. Черпая вдохновение в ранних видео-моделях, наше ключевое наблюдение заключается в модификации существующих 3D-диффузионных моделей для включения временной оси, что приводит к框架, которую мы назвали «временной 3D-диффузией». Конкретно, мы сначала адаптируем стадию 3D-диффузии для генерации последовательности синхронизированных латентных представлений, соответствующих изменяющимся во времени и независимым 3D-формам. Во-вторых, мы разрабатываем временной 3D-автоэнкодер, который преобразует последовательность независимых форм в соответствующие деформации предопределенной эталонной формы, позволяя нам строить анимацию. Объединяя эти два компонента, ActionMesh генерирует анимированные 3D-сетки из различных входных данных, таких как моноскопическое видео, текстовое описание или даже 3D-сетка с текстовым промтом, описывающим её анимацию. Кроме того, по сравнению с предыдущими подходами, наш метод работает быстро и производит результаты, не требующие риггинга и обладающие согласованной топологией, что обеспечивает быструю итерацию и беспрепятственное применение таких методов, как текстурирование и перепривязка. Мы оцениваем нашу модель на стандартных бенчмарках для видео-к-4D (Consistent4D, Objaverse) и сообщаем о состоянии дел в производительности как по геометрической точности, так и по временной согласованности, демонстрируя, что наша модель может предоставлять анимированные 3D-сетки с беспрецедентной скоростью и качеством.
English
Generating animated 3D objects is at the heart of many applications, yet most advanced works are typically difficult to apply in practice because of their limited setup, their long runtime, or their limited quality. We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner. Drawing inspiration from early video models, our key insight is to modify existing 3D diffusion models to include a temporal axis, resulting in a framework we dubbed "temporal 3D diffusion". Specifically, we first adapt the 3D diffusion stage to generate a sequence of synchronized latents representing time-varying and independent 3D shapes. Second, we design a temporal 3D autoencoder that translates a sequence of independent shapes into the corresponding deformations of a pre-defined reference shape, allowing us to build an animation. Combining these two components, ActionMesh generates animated 3D meshes from different inputs like a monocular video, a text description, or even a 3D mesh with a text prompt describing its animation. Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting. We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.