ChatPaper.aiChatPaper

Anima qualsiasi Personaggio in qualsiasi Mondo

Animate Any Character in Any World

December 18, 2025
Autori: Yitong Wang, Fangyun Wei, Hongyang Zhang, Bo Dai, Yan Lu
cs.AI

Abstract

I recenti progressi nei modelli di mondo hanno notevolmente potenziato la simulazione interattiva degli ambienti. I metodi esistenti rientrano principalmente in due categorie: (1) modelli di generazione di mondi statici, che costruiscono ambienti 3D senza agenti attivi, e (2) modelli di entità controllabili, che consentono a una singola entità di compiere azioni limitate in un ambiente altrimenti non controllabile. In questo lavoro, introduciamo AniX, sfruttando il realismo e l'ancoraggio strutturale della generazione di mondi statici, estendendo al contempo i modelli di entità controllabili per supportare personaggi specificati dall'utente in grado di compiere azioni aperte. Gli utenti possono fornire una scena 3DGS e un personaggio, per poi dirigere il personaggio tramite linguaggio naturale affinché esegua comportamenti diversificati, dalla locomozione di base alle interazioni centrate sugli oggetti, esplorando liberamente l'ambiente. AniX sintetizza clip video temporalmente coerenti che preservano la fedeltà visiva con la scena e il personaggio forniti, formulando il problema come una generazione video autoregressiva condizionata. Basata su un generatore video pre-addestrato, la nostra strategia di training migliora significativamente la dinamica del movimento mantenendo la generalizzazione attraverso azioni e personaggi. La nostra valutazione copre un'ampia gamma di aspetti, inclusi la qualità visiva, la coerenza del personaggio, la controllabilità delle azioni e la coerenza a lungo termine.
English
Recent advances in world models have greatly enhanced interactive environment simulation. Existing methods mainly fall into two categories: (1) static world generation models, which construct 3D environments without active agents, and (2) controllable-entity models, which allow a single entity to perform limited actions in an otherwise uncontrollable environment. In this work, we introduce AniX, leveraging the realism and structural grounding of static world generation while extending controllable-entity models to support user-specified characters capable of performing open-ended actions. Users can provide a 3DGS scene and a character, then direct the character through natural language to perform diverse behaviors from basic locomotion to object-centric interactions while freely exploring the environment. AniX synthesizes temporally coherent video clips that preserve visual fidelity with the provided scene and character, formulated as a conditional autoregressive video generation problem. Built upon a pre-trained video generator, our training strategy significantly enhances motion dynamics while maintaining generalization across actions and characters. Our evaluation covers a broad range of aspects, including visual quality, character consistency, action controllability, and long-horizon coherence.
PDF81December 23, 2025