AnimeGamer: Simulação Infinita de Vida Anime com Previsão do Próximo Estado do Jogo
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction
April 1, 2025
Autores: Junhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan
cs.AI
Resumo
Os recentes avanços na síntese de imagens e vídeos abriram novas possibilidades promissoras em jogos generativos. Uma aplicação particularmente intrigante é a transformação de personagens de filmes de anime em entidades interativas e jogáveis. Isso permite que os jogadores se imersem no dinâmico mundo do anime como seus personagens favoritos, simulando a vida por meio de instruções de linguagem. Tais jogos são definidos como jogos infinitos, pois eliminam limites predeterminados e regras de jogo fixas, onde os jogadores podem interagir com o mundo do jogo por meio de linguagem aberta e experimentar enredos e ambientes em constante evolução. Recentemente, uma abordagem pioneira para simulação de vida infinita em anime emprega modelos de linguagem de grande escala (LLMs) para traduzir diálogos de texto em múltiplas etapas em instruções de linguagem para geração de imagens. No entanto, ela negligencia o contexto visual histórico, levando a uma jogabilidade inconsistente. Além disso, gera apenas imagens estáticas, falhando em incorporar a dinâmica necessária para uma experiência de jogo envolvente. Neste trabalho, propomos o AnimeGamer, que é construído sobre Modelos de Linguagem Multimodal de Grande Escala (MLLMs) para gerar cada estado do jogo, incluindo cenas de animação dinâmica que retratam movimentos de personagens e atualizações de estados de personagens, conforme ilustrado na Figura 1. Introduzimos novas representações multimodais conscientes de ação para representar cenas de animação, que podem ser decodificadas em clipes de vídeo de alta qualidade usando um modelo de difusão de vídeo. Ao tomar representações históricas de cenas de animação como contexto e prever representações subsequentes, o AnimeGamer pode gerar jogos com consistência contextual e dinâmica satisfatória. Avaliações extensas usando métricas automatizadas e avaliações humanas demonstram que o AnimeGamer supera os métodos existentes em vários aspectos da experiência de jogo. Códigos e checkpoints estão disponíveis em https://github.com/TencentARC/AnimeGamer.
English
Recent advancements in image and video synthesis have opened up new promise
in generative games. One particularly intriguing application is transforming
characters from anime films into interactive, playable entities. This allows
players to immerse themselves in the dynamic anime world as their favorite
characters for life simulation through language instructions. Such games are
defined as infinite game since they eliminate predetermined boundaries and
fixed gameplay rules, where players can interact with the game world through
open-ended language and experience ever-evolving storylines and environments.
Recently, a pioneering approach for infinite anime life simulation employs
large language models (LLMs) to translate multi-turn text dialogues into
language instructions for image generation. However, it neglects historical
visual context, leading to inconsistent gameplay. Furthermore, it only
generates static images, failing to incorporate the dynamics necessary for an
engaging gaming experience. In this work, we propose AnimeGamer, which is built
upon Multimodal Large Language Models (MLLMs) to generate each game state,
including dynamic animation shots that depict character movements and updates
to character states, as illustrated in Figure 1. We introduce novel
action-aware multimodal representations to represent animation shots, which can
be decoded into high-quality video clips using a video diffusion model. By
taking historical animation shot representations as context and predicting
subsequent representations, AnimeGamer can generate games with contextual
consistency and satisfactory dynamics. Extensive evaluations using both
automated metrics and human evaluations demonstrate that AnimeGamer outperforms
existing methods in various aspects of the gaming experience. Codes and
checkpoints are available at https://github.com/TencentARC/AnimeGamer.Summary
AI-Generated Summary