Make-It-Poseable: Um Modelo de Pose por Propagação Direta em Espaço Latente para Animação de Personagens Humanoides 3D
Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation
December 18, 2025
Autores: Zhiyang Guo, Ori Zhang, Jax Xiang, Alan Zhao, Wengang Zhou, Houqiang Li
cs.AI
Resumo
A pose de personagens 3D é uma tarefa fundamental em computação gráfica e visão computacional. No entanto, métodos existentes, como auto-rigging e geração condicionada por pose, frequentemente enfrentam desafios como previsão imprecisa de pesos de skinning, imperfeições topológicas e baixa conformidade com a pose, limitando sua robustez e generalização. Para superar essas limitações, apresentamos o Make-It-Poseable, uma nova estrutura *feed-forward* que reformula a pose de personagens como um problema de transformação no espaço latente. Em vez de deformar vértices de malha como nos *pipelines* tradicionais, nosso método reconstrói o personagem em novas poses manipulando diretamente sua representação latente. O cerne de nosso método é um transformador de pose latente que manipula *tokens* de forma com base no movimento esquelético. Este processo é facilitado por uma representação de pose densa para controle preciso. Para garantir geometria de alta fidelidade e acomodar mudanças topológicas, também introduzimos uma estratégia de supervisão no espaço latente e um módulo de conclusão adaptativo. Nosso método demonstra desempenho superior na qualidade da pose. Ele também se estende naturalmente para aplicações de edição 3D, como substituição e refinamento de partes.
English
Posing 3D characters is a fundamental task in computer graphics and vision. However, existing methods like auto-rigging and pose-conditioned generation often struggle with challenges such as inaccurate skinning weight prediction, topological imperfections, and poor pose conformance, limiting their robustness and generalizability. To overcome these limitations, we introduce Make-It-Poseable, a novel feed-forward framework that reformulates character posing as a latent-space transformation problem. Instead of deforming mesh vertices as in traditional pipelines, our method reconstructs the character in new poses by directly manipulating its latent representation. At the core of our method is a latent posing transformer that manipulates shape tokens based on skeletal motion. This process is facilitated by a dense pose representation for precise control. To ensure high-fidelity geometry and accommodate topological changes, we also introduce a latent-space supervision strategy and an adaptive completion module. Our method demonstrates superior performance in posing quality. It also naturally extends to 3D editing applications like part replacement and refinement.