Puppeteer: 3Dモデルのリグとアニメーション
Puppeteer: Rig and Animate Your 3D Models
August 14, 2025
著者: Chaoyue Song, Xiu Li, Fan Yang, Zhongcong Xu, Jiacheng Wei, Fayao Liu, Jiashi Feng, Guosheng Lin, Jianfeng Zhang
cs.AI
要旨
現代のインタラクティブアプリケーションでは、動的な3Dコンテンツの需要が高まっているが、静的な3Dモデルをアニメーション資産に変換するプロセスは、コンテンツ制作パイプラインにおける重要なボトルネックとなっている。生成AIの最近の進歩により、静的な3Dモデルの作成は革命的に進化したものの、リギングとアニメーションは依然として専門家の介入に大きく依存している。本論文では、多様な3Dオブジェクトに対する自動リギングとアニメーションを実現する包括的なフレームワークであるPuppeteerを提案する。本システムは、まず、コンパクトな表現のためのジョイントベースのトークン化戦略と、双方向学習能力を強化する確率的摂動を伴う階層的順序付け手法を導入した自己回帰型トランスフォーマーを用いて、妥当な骨格構造を予測する。次に、骨格グラフ距離に基づいてジョイント間の関係を明示的にエンコードするトポロジー認識型ジョイントアテンションを組み込んだアテンションベースのアーキテクチャを用いて、スキニングウェイトを推論する。最後に、これらのリギングの進歩を補完するために、既存のアプローチよりも計算効率が高く、安定した高忠実度のアニメーションを生成する微分可能な最適化ベースのアニメーションパイプラインを提供する。複数のベンチマークにわたる広範な評価により、本手法が骨格予測精度とスキニング品質の両方において、最先端の技術を大幅に上回ることが実証された。本システムは、プロが設計したゲーム資産からAI生成形状まで、多様な3Dコンテンツを堅牢に処理し、既存の手法で一般的なジッター問題を解消した時間的に一貫性のあるアニメーションを生成する。
English
Modern interactive applications increasingly demand dynamic 3D content, yet
the transformation of static 3D models into animated assets constitutes a
significant bottleneck in content creation pipelines. While recent advances in
generative AI have revolutionized static 3D model creation, rigging and
animation continue to depend heavily on expert intervention. We present
Puppeteer, a comprehensive framework that addresses both automatic rigging and
animation for diverse 3D objects. Our system first predicts plausible skeletal
structures via an auto-regressive transformer that introduces a joint-based
tokenization strategy for compact representation and a hierarchical ordering
methodology with stochastic perturbation that enhances bidirectional learning
capabilities. It then infers skinning weights via an attention-based
architecture incorporating topology-aware joint attention that explicitly
encodes inter-joint relationships based on skeletal graph distances. Finally,
we complement these rigging advances with a differentiable optimization-based
animation pipeline that generates stable, high-fidelity animations while being
computationally more efficient than existing approaches. Extensive evaluations
across multiple benchmarks demonstrate that our method significantly
outperforms state-of-the-art techniques in both skeletal prediction accuracy
and skinning quality. The system robustly processes diverse 3D content, ranging
from professionally designed game assets to AI-generated shapes, producing
temporally coherent animations that eliminate the jittering issues common in
existing methods.