Anime Qualquer Personagem em Qualquer Mundo

Resumo

Os avanços recentes em modelos de mundo têm aprimorado significativamente a simulação de ambientes interativos. Os métodos existentes dividem-se principalmente em duas categorias: (1) modelos de geração de mundos estáticos, que constroem ambientes 3D sem agentes ativos, e (2) modelos de entidades controláveis, que permitem que uma única entidade realize ações limitadas em um ambiente que, de outra forma, seria incontrolável. Neste trabalho, introduzimos o AniX, aproveitando o realismo e a fundamentação estrutural da geração de mundos estáticos, enquanto estendemos os modelos de entidades controláveis para suportar personagens especificados pelo usuário, capazes de realizar ações de final aberto. Os usuários podem fornecer uma cena 3DGS e um personagem, e então direcionar o personagem por meio de linguagem natural para executar diversos comportamentos, desde locomoção básica até interações centradas em objetos, enquanto explora livremente o ambiente. O AniX sintetiza clipes de vídeo temporalmente coerentes que preservam a fidelidade visual com a cena e o personagem fornecidos, sendo formulado como um problema de geração de vídeo autoregressivo condicional. Desenvolvido com base em um gerador de vídeo pré-treinado, nossa estratégia de treinamento aprimora significativamente a dinâmica do movimento, mantendo a generalização entre ações e personagens. Nossa avaliação abrange uma ampla gama de aspectos, incluindo qualidade visual, consistência do personagem, controlabilidade da ação e coerência de longo prazo.

English

Recent advances in world models have greatly enhanced interactive environment simulation. Existing methods mainly fall into two categories: (1) static world generation models, which construct 3D environments without active agents, and (2) controllable-entity models, which allow a single entity to perform limited actions in an otherwise uncontrollable environment. In this work, we introduce AniX, leveraging the realism and structural grounding of static world generation while extending controllable-entity models to support user-specified characters capable of performing open-ended actions. Users can provide a 3DGS scene and a character, then direct the character through natural language to perform diverse behaviors from basic locomotion to object-centric interactions while freely exploring the environment. AniX synthesizes temporally coherent video clips that preserve visual fidelity with the provided scene and character, formulated as a conditional autoregressive video generation problem. Built upon a pre-trained video generator, our training strategy significantly enhances motion dynamics while maintaining generalization across actions and characters. Our evaluation covers a broad range of aspects, including visual quality, character consistency, action controllability, and long-horizon coherence.

Anime Qualquer Personagem em Qualquer Mundo

Animate Any Character in Any World

Resumo

Support