SkeletonGaussian:ガウススケルトン化による編集可能な4D生成
SkeletonGaussian: Editable 4D Generation through Gaussian Skeletonization
February 4, 2026
著者: Lifan Wu, Ruijie Zhu, Yubo Ai, Tianzhu Zhang
cs.AI
要旨
4D生成は、入力テキスト、画像、動画から動的な3Dオブジェクトを合成する分野で顕著な進歩を遂げてきた。しかし、既存手法ではモーションを暗黙的な変形場として表現することが多く、直接的な制御や編集が制限されるという課題がある。この問題を解決するため、我々は単眼カメラ動画入力から編集可能な動的3Dガウス表現を生成する新規フレームワークであるSkeletonGaussianを提案する。本手法は、モーションをスケルトンによって明示的に駆動されるスパースな剛体運動と、細粒度の非剛体運動に分解する階層的関節表現を導入する。具体的には、頑健なスケルトンを抽出して線形ブレンドスキニングにより剛体運動を駆動し、ヘックスプレーンに基づく非剛体変形のリファインメントを適用することで、解釈性と編集性を向上させる。実験結果では、SkeletonGaussianが生成品質において既存手法を凌駕するとともに、直感的なモーション編集を可能にし、編集可能な4D生成の新たなパラダイムを確立することを示す。プロジェクトページ: https://wusar.github.io/projects/skeletongaussian/
English
4D generation has made remarkable progress in synthesizing dynamic 3D objects from input text, images, or videos. However, existing methods often represent motion as an implicit deformation field, which limits direct control and editability. To address this issue, we propose SkeletonGaussian, a novel framework for generating editable dynamic 3D Gaussians from monocular video input. Our approach introduces a hierarchical articulated representation that decomposes motion into sparse rigid motion explicitly driven by a skeleton and fine-grained non-rigid motion. Concretely, we extract a robust skeleton and drive rigid motion via linear blend skinning, followed by a hexplane-based refinement for non-rigid deformations, enhancing interpretability and editability. Experimental results demonstrate that SkeletonGaussian surpasses existing methods in generation quality while enabling intuitive motion editing, establishing a new paradigm for editable 4D generation. Project page: https://wusar.github.io/projects/skeletongaussian/