Make-It-Poseable: Modello di Posa Latente Feed-Forward per l'Animazione di Personaggi 3D Umanoidi
Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation
December 18, 2025
Autori: Zhiyang Guo, Ori Zhang, Jax Xiang, Alan Zhao, Wengang Zhou, Houqiang Li
cs.AI
Abstract
La posa di personaggi 3D è un compito fondamentale nella computer grafica e visione artificiale. Tuttavia, i metodi esistenti come l'auto-rigging e la generazione condizionata dalla posa spesso incontrano difficoltà quali previsione imprecisa dei pesi di skinning, imperfezioni topologiche e scarsa conformità alla posa, limitandone robustezza e generalizzabilità. Per superare queste limitazioni, introduciamo Make-It-Poseable, un innovativo framework feed-forward che riformula la posa dei personaggi come problema di trasformazione dello spazio latente. Invece di deformare i vertici della mesh come nelle pipeline tradizionali, il nostro metodo ricostruisce il personaggio in nuove pose manipolando direttamente la sua rappresentazione latente. Al centro del metodo si trova un trasformatore per la posa latente che manipola i token di forma basandosi sul movimento scheletrico. Questo processo è facilitato da una rappresentazione densa della posa per un controllo preciso. Per garantire geometria ad alta fedeltà e adattarsi ai cambiamenti topologici, introduciamo anche una strategia di supervisione nello spazio latente e un modulo di completamento adattivo. Il nostro metodo dimostra prestazioni superiori nella qualità della posa e si estende naturalmente ad applicazioni di editing 3D come la sostituzione e il perfezionamento delle parti.
English
Posing 3D characters is a fundamental task in computer graphics and vision. However, existing methods like auto-rigging and pose-conditioned generation often struggle with challenges such as inaccurate skinning weight prediction, topological imperfections, and poor pose conformance, limiting their robustness and generalizability. To overcome these limitations, we introduce Make-It-Poseable, a novel feed-forward framework that reformulates character posing as a latent-space transformation problem. Instead of deforming mesh vertices as in traditional pipelines, our method reconstructs the character in new poses by directly manipulating its latent representation. At the core of our method is a latent posing transformer that manipulates shape tokens based on skeletal motion. This process is facilitated by a dense pose representation for precise control. To ensure high-fidelity geometry and accommodate topological changes, we also introduce a latent-space supervision strategy and an adaptive completion module. Our method demonstrates superior performance in posing quality. It also naturally extends to 3D editing applications like part replacement and refinement.