SkeletonGaussian: Geração 4D Editável através de Esqueletização Gaussiana
SkeletonGaussian: Editable 4D Generation through Gaussian Skeletonization
February 4, 2026
Autores: Lifan Wu, Ruijie Zhu, Yubo Ai, Tianzhu Zhang
cs.AI
Resumo
A geração 4D tem feito progressos notáveis na síntese de objetos 3D dinâmicos a partir de texto, imagens ou vídeos de entrada. No entanto, os métodos existentes frequentemente representam o movimento como um campo de deformação implícito, o que limita o controle direto e a editabilidade. Para resolver esta questão, propomos o SkeletonGaussian, uma nova estrutura para gerar Gaussianos 3D dinâmicos e editáveis a partir de vídeo monocular. Nossa abordagem introduz uma representação articulada hierárquica que decompõe o movimento em movimento rígido esparso, explicitamente orientado por um esqueleto, e movimento não rígido de granularidade fina. Concretamente, extraímos um esqueleto robusto e orientamos o movimento rígido via *linear blend skinning*, seguido por um refinamento baseado em *hexplane* para deformações não rígidas, aumentando a interpretabilidade e a editabilidade. Resultados experimentais demonstram que o SkeletonGaussian supera os métodos existentes em qualidade de geração, permitindo ao mesmo tempo uma edição de movimento intuitiva, estabelecendo um novo paradigma para a geração 4D editável. Página do projeto: https://wusar.github.io/projects/skeletongaussian/
English
4D generation has made remarkable progress in synthesizing dynamic 3D objects from input text, images, or videos. However, existing methods often represent motion as an implicit deformation field, which limits direct control and editability. To address this issue, we propose SkeletonGaussian, a novel framework for generating editable dynamic 3D Gaussians from monocular video input. Our approach introduces a hierarchical articulated representation that decomposes motion into sparse rigid motion explicitly driven by a skeleton and fine-grained non-rigid motion. Concretely, we extract a robust skeleton and drive rigid motion via linear blend skinning, followed by a hexplane-based refinement for non-rigid deformations, enhancing interpretability and editability. Experimental results demonstrate that SkeletonGaussian surpasses existing methods in generation quality while enabling intuitive motion editing, establishing a new paradigm for editable 4D generation. Project page: https://wusar.github.io/projects/skeletongaussian/