Jede Figur in jeder Welt animieren
Animate Any Character in Any World
December 18, 2025
papers.authors: Yitong Wang, Fangyun Wei, Hongyang Zhang, Bo Dai, Yan Lu
cs.AI
papers.abstract
Jüngste Fortschritte bei Weltmodellen haben die interaktive Umgebungssimulation erheblich verbessert. Bestehende Methoden lassen sich hauptsächlich in zwei Kategorien einteilen: (1) statische Weltgenerierungsmodelle, die 3D-Umgebungen ohne aktive Agenten konstruieren, und (2) Modelle mit steuerbaren Entitäten, die einer einzelnen Entität begrenzte Aktionen in einer ansonsten unsteuerbaren Umgebung ermöglichen. In dieser Arbeit stellen wir AniX vor, das den Realismus und die strukturelle Fundierung der statischen Weltgenerierung nutzt und gleichzeitig Modelle mit steuerbaren Entitäten erweitert, um benutzerdefinierte Charaktere zu unterstützen, die offene Handlungen ausführen können. Benutzer können eine 3DGS-Szene und einen Charakter bereitstellen und diesen dann durch natürliche Sprache anleiten, um diverse Verhaltensweisen von grundlegender Fortbewegung bis hin zu objektzentrierten Interaktionen auszuführen, während die Umgebung frei erkundet wird. AniX synthetisiert zeitlich kohärente Videoclips, die die visuelle Qualität der bereitgestellten Szene und des Charakters bewahren, formuliert als ein Problem der bedingten autoregressiven Videogenerierung. Aufbauend auf einem vortrainierten Videogenerator verbessert unsere Trainingsstrategie die Bewegungsdynamik erheblich und bewahrt gleichzeitig die Generalisierbarkeit über Aktionen und Charaktere hinweg. Unsere Evaluation umfasst eine breite Palette von Aspekten, einschließlich visueller Qualität, Charakterkonsistenz, Aktionssteuerbarkeit und Langzeitkohärenz.
English
Recent advances in world models have greatly enhanced interactive environment simulation. Existing methods mainly fall into two categories: (1) static world generation models, which construct 3D environments without active agents, and (2) controllable-entity models, which allow a single entity to perform limited actions in an otherwise uncontrollable environment. In this work, we introduce AniX, leveraging the realism and structural grounding of static world generation while extending controllable-entity models to support user-specified characters capable of performing open-ended actions. Users can provide a 3DGS scene and a character, then direct the character through natural language to perform diverse behaviors from basic locomotion to object-centric interactions while freely exploring the environment. AniX synthesizes temporally coherent video clips that preserve visual fidelity with the provided scene and character, formulated as a conditional autoregressive video generation problem. Built upon a pre-trained video generator, our training strategy significantly enhances motion dynamics while maintaining generalization across actions and characters. Our evaluation covers a broad range of aspects, including visual quality, character consistency, action controllability, and long-horizon coherence.