ActionMesh: 시간적 3D 확산 기반 애니메이션 3D 메시 생성
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
January 22, 2026
저자: Remy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier
cs.AI
초록
애니메이션 3D 객체 생성은 많은 애플리케이션의 핵심이지만, 대부분의 최신 연구는 설정의 제한성, 긴 실행 시간 또는 제한된 품질로 인해 실제 적용이 어려운 경우가 많습니다. 우리는 피드-포워드 방식으로 제작 준비가 된 "동작 중인" 3D 메시를 예측하는 생성 모델인 ActionMesh를 소개합니다. 초기 비디오 모델에서 영감을 얻은 우리의 핵심 통찰은 기존 3D 확산 모델에 시간 축을 포함하도록 수정하여 "시간적 3D 확산"이라고 명명한 프레임워크를 만드는 것입니다. 구체적으로, 우리는 먼저 3D 확산 단계를 조정하여 시간에 따라 변화하고 독립적인 3D 형태를 나타내는 동기화된 잠재 변수 시퀀스를 생성합니다. 두 번째로, 독립적인 형태의 시퀀스를 사전 정의된 참조 형태의 해당 변형으로 변환하는 시간적 3D 오토인코더를 설계하여 애니메이션을 구축할 수 있도록 합니다. 이 두 구성 요소를 결합한 ActionMesh는 단안 비디오, 텍스트 설명, 또는 애니메이션을 설명하는 텍스트 프롬프트가 포함된 3D 메시와 같은 다양한 입력으로부터 애니메이션 3D 메시를 생성합니다. 또한, 기존 접근법과 비교하여 우리의 방법은 빠르며, 리깅이 필요 없고 토폴로지가 일관된 결과를 생성하므로 신속한 반복 작업과 텍스처링 및 리타겟팅과 같은 원활한 응용이 가능합니다. 우리는 표준 비디오-to-4D 벤치마크(Consistent4D, Objaverse)에서 우리 모델을 평가하고 기하학적 정확도와 시간적 일관성 모두에서 최첨단 성능을 보고하며, 우리 모델이 전례 없는 속도와 품질로 애니메이션 3D 메시를 제공할 수 있음을 입증합니다.
English
Generating animated 3D objects is at the heart of many applications, yet most advanced works are typically difficult to apply in practice because of their limited setup, their long runtime, or their limited quality. We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner. Drawing inspiration from early video models, our key insight is to modify existing 3D diffusion models to include a temporal axis, resulting in a framework we dubbed "temporal 3D diffusion". Specifically, we first adapt the 3D diffusion stage to generate a sequence of synchronized latents representing time-varying and independent 3D shapes. Second, we design a temporal 3D autoencoder that translates a sequence of independent shapes into the corresponding deformations of a pre-defined reference shape, allowing us to build an animation. Combining these two components, ActionMesh generates animated 3D meshes from different inputs like a monocular video, a text description, or even a 3D mesh with a text prompt describing its animation. Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting. We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.