ChatPaper.aiChatPaper

어떤 세계의 어떤 캐릭터라도 생동감 있게 표현하기

Animate Any Character in Any World

December 18, 2025
저자: Yitong Wang, Fangyun Wei, Hongyang Zhang, Bo Dai, Yan Lu
cs.AI

초록

최근 세계 모델(world model)의 발전은 상호작용형 환경 시뮬레이션의 성능을 크게 향상시켰다. 기존 방법은 주로 두 가지 범주로 나뉜다: (1) 능동적 에이전트 없이 3D 환경을 구축하는 정적 세계 생성 모델과, (2) 통제 불가능한 환경 내에서 단일 개체가 제한된 행동을 수행할 수 있도록 하는 제어 가능 개체 모델이다. 본 연구에서는 AniX를 소개하며, 이는 정적 세계 생성의 사실성과 구조적 토대를 활용하는 동시에 제어 가능 개체 모델을 확장하여 사용자가 지정한 캐릭터가 개방형 행동을 수행할 수 있도록 지원한다. 사용자는 3DGS 장면과 캐릭터를 제공한 후 자연어를 통해 캐릭터를 지시하여 환경을 자유롭게 탐색하며 기본 이동부터 객체 중심 상호작용에 이르기까지 다양한 행동을 수행하도록 할 수 있다. AniX는 제공된 장면과 캐릭터의 시각적 충실도를 유지하는 시간적 일관성을 가진 비디오 클립을 합성하며, 이는 조건부 자기회귀 비디오 생성 문제로 공식화된다. 사전 학습된 비디오 생성기를 기반으로 구축된 우리의 학습 전략은 행동과 캐릭터 전반에 대한 일반화 성능을 유지하면서 모션 역동성을 크게 향상시킨다. 평가는 시각적 품질, 캐릭터 일관성, 행동 제어 가능성, 장기간 일관성 등 다양한 측면을 포괄적으로 다룬다.
English
Recent advances in world models have greatly enhanced interactive environment simulation. Existing methods mainly fall into two categories: (1) static world generation models, which construct 3D environments without active agents, and (2) controllable-entity models, which allow a single entity to perform limited actions in an otherwise uncontrollable environment. In this work, we introduce AniX, leveraging the realism and structural grounding of static world generation while extending controllable-entity models to support user-specified characters capable of performing open-ended actions. Users can provide a 3DGS scene and a character, then direct the character through natural language to perform diverse behaviors from basic locomotion to object-centric interactions while freely exploring the environment. AniX synthesizes temporally coherent video clips that preserve visual fidelity with the provided scene and character, formulated as a conditional autoregressive video generation problem. Built upon a pre-trained video generator, our training strategy significantly enhances motion dynamics while maintaining generalization across actions and characters. Our evaluation covers a broad range of aspects, including visual quality, character consistency, action controllability, and long-horizon coherence.
PDF81December 23, 2025