SkeletonGaussian: Editierbare 4D-Generierung durch Gaußsche Skelettierung
SkeletonGaussian: Editable 4D Generation through Gaussian Skeletonization
February 4, 2026
papers.authors: Lifan Wu, Ruijie Zhu, Yubo Ai, Tianzhu Zhang
cs.AI
papers.abstract
Die 4D-Generierung hat bemerkenswerte Fortschritte bei der Synthese dynamischer 3D-Objekte aus Eingabetexten, -bildern oder -videos erzielt. Bestehende Methoden repräsentieren Bewegung jedoch oft als implizites Verformungsfeld, was die direkte Steuerung und Bearbeitbarkeit einschränkt. Um dieses Problem zu lösen, schlagen wir SkeletonGaussian vor, einen neuartigen Rahmen zur Erzeugung editierbarer dynamischer 3D-Gaussians aus monokularen Videoeingaben. Unser Ansatz führt eine hierarchische artikulierte Repräsentation ein, die Bewegung explizit in eine spärliche, starre Bewegung, gesteuert durch ein Skelett, und eine feinkörnige nicht-starre Bewegung zerlegt. Konkret extrahieren wir ein robustes Skelett und steuern die starre Bewegung über Linear Blend Skinning, gefolgt von einer hexplanebasierten Verfeinerung für nicht-starre Verformungen, was die Interpretierbarkeit und Bearbeitbarkeit verbessert. Experimentelle Ergebnisse zeigen, dass SkeletonGaussian bestehende Methoden in der Generierungsqualität übertrifft und gleichzeitig intuitive Bewegungsbearbeitung ermöglicht, wodurch ein neues Paradigma für editierbare 4D-Generierung etabliert wird. Projektseite: https://wusar.github.io/projects/skeletongaussian/
English
4D generation has made remarkable progress in synthesizing dynamic 3D objects from input text, images, or videos. However, existing methods often represent motion as an implicit deformation field, which limits direct control and editability. To address this issue, we propose SkeletonGaussian, a novel framework for generating editable dynamic 3D Gaussians from monocular video input. Our approach introduces a hierarchical articulated representation that decomposes motion into sparse rigid motion explicitly driven by a skeleton and fine-grained non-rigid motion. Concretely, we extract a robust skeleton and drive rigid motion via linear blend skinning, followed by a hexplane-based refinement for non-rigid deformations, enhancing interpretability and editability. Experimental results demonstrate that SkeletonGaussian surpasses existing methods in generation quality while enabling intuitive motion editing, establishing a new paradigm for editable 4D generation. Project page: https://wusar.github.io/projects/skeletongaussian/