Anima cualquier personaje en cualquier mundo.
Animate Any Character in Any World
December 18, 2025
Autores: Yitong Wang, Fangyun Wei, Hongyang Zhang, Bo Dai, Yan Lu
cs.AI
Resumen
Los recientes avances en modelos del mundo han mejorado significativamente la simulación de entornos interactivos. Los métodos existentes se clasifican principalmente en dos categorías: (1) modelos de generación de mundos estáticos, que construyen entornos 3D sin agentes activos, y (2) modelos de entidades controlables, que permiten que una única entidad realice acciones limitadas en un entorno por lo demás incontrolable. En este trabajo presentamos AniX, que aprovecha el realismo y la base estructural de la generación de mundos estáticos mientras extiende los modelos de entidades controlables para admitir personajes especificados por el usuario capaces de realizar acciones de final abierto. Los usuarios pueden proporcionar una escena 3DGS y un personaje, luego dirigir al personaje mediante lenguaje natural para realizar diversos comportamientos, desde locomoción básica hasta interacciones centradas en objetos, mientras exploran libremente el entorno. AniX sintetiza clips de video temporalmente coherentes que preservan la fidelidad visual con la escena y el personaje proporcionados, formulado como un problema de generación de video autoregresivo condicional. Desarrollado sobre un generador de video preentrenado, nuestra estrategia de entrenamiento mejora significativamente la dinámica del movimiento mientras mantiene la generalización entre acciones y personajes. Nuestra evaluación cubre una amplia gama de aspectos, incluida la calidad visual, la consistencia del personaje, la controllabilidad de las acciones y la coherencia a largo plazo.
English
Recent advances in world models have greatly enhanced interactive environment simulation. Existing methods mainly fall into two categories: (1) static world generation models, which construct 3D environments without active agents, and (2) controllable-entity models, which allow a single entity to perform limited actions in an otherwise uncontrollable environment. In this work, we introduce AniX, leveraging the realism and structural grounding of static world generation while extending controllable-entity models to support user-specified characters capable of performing open-ended actions. Users can provide a 3DGS scene and a character, then direct the character through natural language to perform diverse behaviors from basic locomotion to object-centric interactions while freely exploring the environment. AniX synthesizes temporally coherent video clips that preserve visual fidelity with the provided scene and character, formulated as a conditional autoregressive video generation problem. Built upon a pre-trained video generator, our training strategy significantly enhances motion dynamics while maintaining generalization across actions and characters. Our evaluation covers a broad range of aspects, including visual quality, character consistency, action controllability, and long-horizon coherence.