ChatPaper.aiChatPaper

ActionMesh: 時間的3D拡散モデルによる動的3Dメッシュ生成

ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion

January 22, 2026
著者: Remy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier
cs.AI

要旨

アニメーション化された3Dオブジェクトの生成は多くのアプリケーションの中核をなす技術であるが、既存の先進的研究のほとんどは、設定の制約、長時間の処理、または品質の限界といった理由から実践的な応用が困難な場合が多い。本論文では、フィードフォワード方式でプロダクションレディな3Dメッシュを「動作状態」で予測する生成モデル、ActionMeshを提案する。初期のビデオモデルから着想を得た我々の重要な知見は、既存の3D拡散モデルに時間軸を組み込むことであり、これを「時間的3D拡散」と呼ぶ枠組みを確立した。具体的には、まず3D拡散ステージを改変し、時間変化する独立した3D形状を表す同期化された潜在変数の系列を生成する。次に、独立した形状の系列を、事前定義された参照形状の変形に対応付ける時間的3Dオートエンコーダを設計し、アニメーション構築を可能にする。これら二つの構成要素を組み合わせることで、ActionMeshは単眼カメラ映像、テキスト記述、あるいはアニメーションを記述したテキストプロンプト付きの3Dメッシュなど、様々な入力からアニメーション化された3Dメッシュを生成する。さらに、従来手法と比較して、本手法は高速であり、リグが不要でトポロジーが一貫した結果を生成するため、迅速な反復処理や、テクスチャリングやリターゲティングのようなシームレスな応用を可能にする。標準的なビデオ-to-4Dベンチマーク(Consistent4D、Objaverse)においてモデルを評価し、幾何学的精度と時間的一貫性の両方で state-of-the-art の性能を達成したことを報告する。これにより、我々のモデルが前例のない速度と品質でアニメーション3Dメッシュを提供できることを実証する。
English
Generating animated 3D objects is at the heart of many applications, yet most advanced works are typically difficult to apply in practice because of their limited setup, their long runtime, or their limited quality. We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner. Drawing inspiration from early video models, our key insight is to modify existing 3D diffusion models to include a temporal axis, resulting in a framework we dubbed "temporal 3D diffusion". Specifically, we first adapt the 3D diffusion stage to generate a sequence of synchronized latents representing time-varying and independent 3D shapes. Second, we design a temporal 3D autoencoder that translates a sequence of independent shapes into the corresponding deformations of a pre-defined reference shape, allowing us to build an animation. Combining these two components, ActionMesh generates animated 3D meshes from different inputs like a monocular video, a text description, or even a 3D mesh with a text prompt describing its animation. Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting. We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.
PDF52January 24, 2026