Animeer Elk Personage in Elke Wereld
Animate Any Character in Any World
December 18, 2025
Auteurs: Yitong Wang, Fangyun Wei, Hongyang Zhang, Bo Dai, Yan Lu
cs.AI
Samenvatting
Recente vooruitgang in wereldmodellen heeft de simulatie van interactieve omgevingen aanzienlijk verbeterd. Bestaande methoden vallen voornamelijk in twee categorieën: (1) statische wereldgeneratiemodellen, die 3D-omgevingen construeren zonder actieve agenten, en (2) bestuurbare-entiteitsmodellen, die één entiteit in staat stellen beperkte acties uit te voeren in een verder onbestuurbare omgeving. In dit werk introduceren we AniX, dat gebruikmaakt van de realisme en structurele onderbouwing van statische wereldgeneratie, terwijl het bestuurbare-entiteitsmodellen uitbreidt om door de gebruiker gespecificeerde personages te ondersteunen die in staat zijn tot open-einde acties. Gebruikers kunnen een 3DGS-scène en een personage aanleveren en het personage vervolgens via natuurlijke taal aansturen om diverse gedragingen uit te voeren, van basale locomotie tot objectgerichte interacties, terwijl het vrijelijk de omgeving verkent. AniX synthetiseert temporeel coherente videofragmenten die de visuele getrouwheid aan de geleverde scène en het personage behouden, geformuleerd als een conditioneel autoregressief videogeneratieprobleem. Gebouwd op een vooraf getrainde videogenerator, verbetert onze trainingsstrategie de bewegingsdynamiek aanzienlijk, terwijl generalisatie over acties en personages behouden blijft. Onze evaluatie beslaat een breed scala aan aspecten, waaronder visuele kwaliteit, personageconsistentie, actiebestuurbaarheid en coherentie op lange termijn.
English
Recent advances in world models have greatly enhanced interactive environment simulation. Existing methods mainly fall into two categories: (1) static world generation models, which construct 3D environments without active agents, and (2) controllable-entity models, which allow a single entity to perform limited actions in an otherwise uncontrollable environment. In this work, we introduce AniX, leveraging the realism and structural grounding of static world generation while extending controllable-entity models to support user-specified characters capable of performing open-ended actions. Users can provide a 3DGS scene and a character, then direct the character through natural language to perform diverse behaviors from basic locomotion to object-centric interactions while freely exploring the environment. AniX synthesizes temporally coherent video clips that preserve visual fidelity with the provided scene and character, formulated as a conditional autoregressive video generation problem. Built upon a pre-trained video generator, our training strategy significantly enhances motion dynamics while maintaining generalization across actions and characters. Our evaluation covers a broad range of aspects, including visual quality, character consistency, action controllability, and long-horizon coherence.