Make-It-Poseable: Модель прямой передачи латентных поз для анимации трехмерных персонажей-гуманоидов
Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation
December 18, 2025
Авторы: Zhiyang Guo, Ori Zhang, Jax Xiang, Alan Zhao, Wengang Zhou, Houqiang Li
cs.AI
Аннотация
Позирование 3D-персонажей является фундаментальной задачей в компьютерной графике и компьютерном зрении. Однако существующие методы, такие как автоматический риггинг и генерация с условием позы, часто сталкиваются с проблемами неточного предсказания весов скиннинга, топологических несовершенств и слабого соответствия позе, что ограничивает их надежность и способность к обобщению. Для преодоления этих ограничений мы представляем Make-It-Poseable — новую прямую (feed-forward) архитектуру, которая переформулирует задачу позирования персонажа как проблему преобразования в латентном пространстве. В отличие от традиционных подходов, деформирующих вершины сетки, наш метод реконструирует персонажа в новых позах путем непосредственного манипулирования его латентным представлением. Основой нашего метода является трансформер латентного позирования, который управляет токенами формы на основе скелетной анимации. Этот процесс обеспечивается плотным (dense) представлением позы для точного контроля. Для гарантии высококачественной геометрии и учета топологических изменений мы также вводим стратегию латентного контроля (supervision) и адаптивный модуль дополнения (completion). Наш метод демонстрирует превосходное качество позирования. Он также естественным образом расширяется для применения в задачах 3D-редактирования, таких как замена и доработка частей.
English
Posing 3D characters is a fundamental task in computer graphics and vision. However, existing methods like auto-rigging and pose-conditioned generation often struggle with challenges such as inaccurate skinning weight prediction, topological imperfections, and poor pose conformance, limiting their robustness and generalizability. To overcome these limitations, we introduce Make-It-Poseable, a novel feed-forward framework that reformulates character posing as a latent-space transformation problem. Instead of deforming mesh vertices as in traditional pipelines, our method reconstructs the character in new poses by directly manipulating its latent representation. At the core of our method is a latent posing transformer that manipulates shape tokens based on skeletal motion. This process is facilitated by a dense pose representation for precise control. To ensure high-fidelity geometry and accommodate topological changes, we also introduce a latent-space supervision strategy and an adaptive completion module. Our method demonstrates superior performance in posing quality. It also naturally extends to 3D editing applications like part replacement and refinement.