ChatPaper.aiChatPaper

Animez n'importe quel personnage dans n'importe quel monde

Animate Any Character in Any World

December 18, 2025
papers.authors: Yitong Wang, Fangyun Wei, Hongyang Zhang, Bo Dai, Yan Lu
cs.AI

papers.abstract

Les récents progrès en modèles du monde ont considérablement amélioré la simulation interactive d'environnements. Les méthodes existantes se divisent principalement en deux catégories : (1) les modèles de génération de mondes statiques, qui construisent des environnements 3D sans agents actifs, et (2) les modèles à entités contrôlables, qui permettent à une seule entité d'effectuer des actions limitées dans un environnement autrement non contrôlable. Dans ce travail, nous présentons AniX, qui exploite le réalisme et l'ancrage structurel de la génération de mondes statiques tout en étendant les modèles à entités contrôlables pour prendre en charge des personnages spécifiés par l'utilisateur capables d'effectuer des actions ouvertes. Les utilisateurs peuvent fournir une scène 3DGS et un personnage, puis guider le personnage par langage naturel pour exécuter des comportements divers allant de la locomotion de base aux interactions centrées sur les objets tout en explorant librement l'environnement. AniX synthétise des clips vidéo temporellement cohérents qui préservent la fidélité visuelle avec la scène et le personnage fournis, formulés comme un problème de génération vidéo autogressive conditionnelle. Construite sur un générateur vidéo pré-entraîné, notre stratégie d'entraînement améliore significativement la dynamique du mouvement tout en maintenant la généralisation entre les actions et les personnages. Notre évaluation couvre un large éventail d'aspects, incluant la qualité visuelle, la cohérence des personnages, la contrôlabilité des actions et la cohérence à long terme.
English
Recent advances in world models have greatly enhanced interactive environment simulation. Existing methods mainly fall into two categories: (1) static world generation models, which construct 3D environments without active agents, and (2) controllable-entity models, which allow a single entity to perform limited actions in an otherwise uncontrollable environment. In this work, we introduce AniX, leveraging the realism and structural grounding of static world generation while extending controllable-entity models to support user-specified characters capable of performing open-ended actions. Users can provide a 3DGS scene and a character, then direct the character through natural language to perform diverse behaviors from basic locomotion to object-centric interactions while freely exploring the environment. AniX synthesizes temporally coherent video clips that preserve visual fidelity with the provided scene and character, formulated as a conditional autoregressive video generation problem. Built upon a pre-trained video generator, our training strategy significantly enhances motion dynamics while maintaining generalization across actions and characters. Our evaluation covers a broad range of aspects, including visual quality, character consistency, action controllability, and long-horizon coherence.
PDF81December 23, 2025