Puppeteer: 3D 모델 리깅 및 애니메이션
Puppeteer: Rig and Animate Your 3D Models
August 14, 2025
저자: Chaoyue Song, Xiu Li, Fan Yang, Zhongcong Xu, Jiacheng Wei, Fayao Liu, Jiashi Feng, Guosheng Lin, Jianfeng Zhang
cs.AI
초록
현대의 인터랙티브 애플리케이션은 점점 더 동적인 3D 콘텐츠를 요구하고 있지만, 정적인 3D 모델을 애니메이션 자산으로 변환하는 과정은 콘텐츠 제작 파이프라인에서 상당한 병목 현상을 일으키고 있습니다. 최근 생성형 AI의 발전으로 정적 3D 모델 생성이 혁신적으로 개선되었음에도 불구하고, 리깅과 애니메이션은 여전히 전문가의 개입에 크게 의존하고 있습니다. 본 논문에서는 다양한 3D 객체에 대한 자동 리깅과 애니메이션을 모두 해결하는 포괄적인 프레임워크인 Puppeteer를 소개합니다. 우리의 시스템은 먼저, 조인트 기반 토큰화 전략을 통해 간결한 표현을 도입하고, 확률적 섭동을 포함한 계층적 순서화 방법론을 통해 양방향 학습 능력을 향상시키는 자기회귀 트랜스포머를 통해 가능성 있는 골격 구조를 예측합니다. 그런 다음, 골격 그래프 거리를 기반으로 조인트 간 관계를 명시적으로 인코딩하는 토폴로지 인식 조인트 어텐션을 통합한 어텐션 기반 아키텍처를 통해 스키닝 가중치를 추론합니다. 마지막으로, 이러한 리깅 기술을 보완하기 위해 기존 접근법보다 계산적으로 더 효율적이면서도 안정적이고 고품질의 애니메이션을 생성하는 미분 가능한 최적화 기반 애니메이션 파이프라인을 제안합니다. 다양한 벤치마크에 대한 광범위한 평가를 통해 우리의 방법이 골격 예측 정확도와 스키닝 품질 모두에서 최신 기술을 크게 능가함을 입증했습니다. 이 시스템은 전문적으로 디자인된 게임 자산부터 AI 생성 형상에 이르기까지 다양한 3D 콘텐츠를 견고하게 처리하며, 기존 방법에서 흔히 발생하는 지터링 문제를 제거한 시간적 일관성을 가진 애니메이션을 생성합니다.
English
Modern interactive applications increasingly demand dynamic 3D content, yet
the transformation of static 3D models into animated assets constitutes a
significant bottleneck in content creation pipelines. While recent advances in
generative AI have revolutionized static 3D model creation, rigging and
animation continue to depend heavily on expert intervention. We present
Puppeteer, a comprehensive framework that addresses both automatic rigging and
animation for diverse 3D objects. Our system first predicts plausible skeletal
structures via an auto-regressive transformer that introduces a joint-based
tokenization strategy for compact representation and a hierarchical ordering
methodology with stochastic perturbation that enhances bidirectional learning
capabilities. It then infers skinning weights via an attention-based
architecture incorporating topology-aware joint attention that explicitly
encodes inter-joint relationships based on skeletal graph distances. Finally,
we complement these rigging advances with a differentiable optimization-based
animation pipeline that generates stable, high-fidelity animations while being
computationally more efficient than existing approaches. Extensive evaluations
across multiple benchmarks demonstrate that our method significantly
outperforms state-of-the-art techniques in both skeletal prediction accuracy
and skinning quality. The system robustly processes diverse 3D content, ranging
from professionally designed game assets to AI-generated shapes, producing
temporally coherent animations that eliminate the jittering issues common in
existing methods.