MTVCrafter: オープンワールド人間画像アニメーションのための4Dモーショントークン化
MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
May 15, 2025
著者: Yanbo Ding, Xirui Hu, Zhizhi Guo, Yali Wang
cs.AI
要旨
人間画像アニメーションは、デジタルヒューマンにおける幅広い応用により、急速に注目を集め発展してきました。しかし、既存の手法は主に2Dレンダリングされたポーズ画像に依存しており、これが一般化を制限し、オープンワールドアニメーションに必要な3D情報を捨ててしまう問題があります。この問題を解決するため、我々はMTVCrafter(Motion Tokenization Video Crafter)を提案します。これは、人間画像アニメーションのために生の3Dモーションシーケンス(すなわち4Dモーション)を直接モデル化する初めてのフレームワークです。具体的には、4DMoT(4D motion tokenizer)を導入し、3Dモーションシーケンスを4Dモーショントークンに量子化します。2Dレンダリングされたポーズ画像と比較して、4Dモーショントークンはより堅牢な時空間的キューを提供し、ポーズ画像とキャラクター間の厳密なピクセルレベルアラインメントを避けることで、より柔軟で分離された制御を可能にします。次に、MV-DiT(Motion-aware Video DiT)を導入します。4D位置エンコーディングを用いた独自のモーションアテンションを設計することで、MV-DiTはモーショントークンを4Dのコンパクトでありながら表現力豊かなコンテキストとして活用し、複雑な3D世界における人間画像アニメーションを効果的に実現します。これにより、この分野における重要な進歩を遂げ、ポーズ誘導型人間ビデオ生成の新たな方向性を開拓します。実験結果は、我々のMTVCrafterがFID-VIDで6.98という最先端の結果を達成し、2番目に優れた手法を65%上回ることを示しています。堅牢なモーショントークンにより、MTVCrafterは様々なスタイルやシナリオにおける多様なオープンワールドキャラクター(単体/複数、全身/半身)にもうまく一般化します。我々のビデオデモとコードは以下にあります:https://github.com/DINGYANB/MTVCrafter。
English
Human image animation has gained increasing attention and developed rapidly
due to its broad applications in digital humans. However, existing methods rely
largely on 2D-rendered pose images for motion guidance, which limits
generalization and discards essential 3D information for open-world animation.
To tackle this problem, we propose MTVCrafter (Motion Tokenization Video
Crafter), the first framework that directly models raw 3D motion sequences
(i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT
(4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens.
Compared to 2D-rendered pose images, 4D motion tokens offer more robust
spatio-temporal cues and avoid strict pixel-level alignment between pose image
and character, enabling more flexible and disentangled control. Then, we
introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention
with 4D positional encodings, MV-DiT can effectively leverage motion tokens as
4D compact yet expressive context for human image animation in the complex 3D
world. Hence, it marks a significant step forward in this field and opens a new
direction for pose-guided human video generation. Experiments show that our
MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98,
surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter
also generalizes well to diverse open-world characters (single/multiple,
full/half-body) across various styles and scenarios. Our video demos and code
are on: https://github.com/DINGYANB/MTVCrafter.Summary
AI-Generated Summary