ChatPaper.aiChatPaper

Оживи любого персонажа в любом мире

Animate Any Character in Any World

December 18, 2025
Авторы: Yitong Wang, Fangyun Wei, Hongyang Zhang, Bo Dai, Yan Lu
cs.AI

Аннотация

Последние достижения в области моделей мира значительно улучшили симуляцию интерактивных сред. Существующие методы в основном делятся на две категории: (1) модели статического генеративного мира, которые создают 3D-среды без активных агентов, и (2) модели управляемых объектов, которые позволяют единственному объекту выполнять ограниченные действия в иначе неуправляемой среде. В данной работе мы представляем AniX, который сочетает реализм и структурную обоснованность статического генеративного мира, расширяя модели управляемых объектов для поддержки задаваемых пользователем персонажей, способных выполнять открытые действия. Пользователи могут предоставить сцену на основе 3DGS и персонажа, а затем направлять его с помощью естественного языка для выполнения разнообразных поведений — от базовой локомоции до взаимодействий с объектами — при свободном исследовании среды. AniX синтезирует временно согласованные видеоролики, сохраняющие визуальное соответствие предоставленной сцене и персонажу, что формулируется как задача условной авторегрессионной генерации видео. Построенная на основе предварительно обученного генератора видео, наша стратегия обучения значительно улучшает динамику движений, сохраняя обобщаемость для различных действий и персонажей. Наша оценка охватывает широкий спектр аспектов, включая визуальное качество, согласованность персонажа, управляемость действий и долгосрочную согласованность.
English
Recent advances in world models have greatly enhanced interactive environment simulation. Existing methods mainly fall into two categories: (1) static world generation models, which construct 3D environments without active agents, and (2) controllable-entity models, which allow a single entity to perform limited actions in an otherwise uncontrollable environment. In this work, we introduce AniX, leveraging the realism and structural grounding of static world generation while extending controllable-entity models to support user-specified characters capable of performing open-ended actions. Users can provide a 3DGS scene and a character, then direct the character through natural language to perform diverse behaviors from basic locomotion to object-centric interactions while freely exploring the environment. AniX synthesizes temporally coherent video clips that preserve visual fidelity with the provided scene and character, formulated as a conditional autoregressive video generation problem. Built upon a pre-trained video generator, our training strategy significantly enhances motion dynamics while maintaining generalization across actions and characters. Our evaluation covers a broad range of aspects, including visual quality, character consistency, action controllability, and long-horizon coherence.
PDF81December 23, 2025