ChatPaper.aiChatPaper

あらゆる世界のあらゆるキャラクターをアニメーション化

Animate Any Character in Any World

December 18, 2025
著者: Yitong Wang, Fangyun Wei, Hongyang Zhang, Bo Dai, Yan Lu
cs.AI

要旨

ワールドモデルの近年の進歩は、対話的環境シミュレーションを大幅に発展させている。既存手法は主に二つのカテゴリに分類される:(1) 能動的エージェントを含まない3D環境を構築する静的ワールド生成モデルと、(2) 単一のエンティティが制御可能で、それ以外の環境は制御不能という限定的な動作を可能にする制御可能エンティティモデルである。本研究では、AniXを提案する。本手法は、静的ワールド生成の写実性と構造的基盤を活用しつつ、制御可能エンティティモデルを拡張し、オープンエンドな行動を実行可能なユーザ指定のキャラクターをサポートする。ユーザは3DGSシーンとキャラクターを提供し、自然言語を通じてキャラクターを指示することで、基本的な移動から物体中心の相互作用まで多様な行動を実行させながら、環境を自由に探索させることができる。AniXは、提供されたシーンとキャラクターの視覚的忠実性を保ちながら、時間的に一貫性のあるビデオクリップを合成する。これは条件付き自己回帰ビデオ生成問題として定式化される。事前学習済みビデオ生成モデルを基盤とし、我々の学習戦略は、行動とキャラクターにわたる汎化性を維持しつつ、動作ダイナミクスを大幅に強化する。評価は、視覚的品質、キャラクター一貫性、行動制御性、長期的コヒーレンスなど、多岐にわたる側面を網羅している。
English
Recent advances in world models have greatly enhanced interactive environment simulation. Existing methods mainly fall into two categories: (1) static world generation models, which construct 3D environments without active agents, and (2) controllable-entity models, which allow a single entity to perform limited actions in an otherwise uncontrollable environment. In this work, we introduce AniX, leveraging the realism and structural grounding of static world generation while extending controllable-entity models to support user-specified characters capable of performing open-ended actions. Users can provide a 3DGS scene and a character, then direct the character through natural language to perform diverse behaviors from basic locomotion to object-centric interactions while freely exploring the environment. AniX synthesizes temporally coherent video clips that preserve visual fidelity with the provided scene and character, formulated as a conditional autoregressive video generation problem. Built upon a pre-trained video generator, our training strategy significantly enhances motion dynamics while maintaining generalization across actions and characters. Our evaluation covers a broad range of aspects, including visual quality, character consistency, action controllability, and long-horizon coherence.
PDF81December 23, 2025