AnimeGamer : Simulation Infinie de Vie Anime avec Prédiction de l'État de Jeu Suivant
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction
April 1, 2025
Auteurs: Junhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan
cs.AI
Résumé
Les récentes avancées en synthèse d'images et de vidéos ont ouvert de nouvelles perspectives prometteuses dans les jeux génératifs. Une application particulièrement intrigante est la transformation de personnages de films d'animation en entités interactives et jouables. Cela permet aux joueurs de s'immerger dans le monde dynamique de l'animation en incarnant leurs personnages préférés pour des simulations de vie via des instructions langagières. De tels jeux sont définis comme des jeux infinis, car ils éliminent les limites prédéfinies et les règles de jeu fixes, permettant aux joueurs d'interagir avec le monde du jeu à travers un langage ouvert et de vivre des histoires et des environnements en constante évolution. Récemment, une approche pionnière pour la simulation de vie infinie dans l'animation utilise des modèles de langage de grande taille (LLMs) pour traduire des dialogues textuels multi-tours en instructions langagières pour la génération d'images. Cependant, elle néglige le contexte visuel historique, ce qui entraîne une incohérence dans le gameplay. De plus, elle ne génère que des images statiques, ne parvenant pas à intégrer la dynamique nécessaire pour une expérience de jeu captivante. Dans ce travail, nous proposons AnimeGamer, qui s'appuie sur des modèles de langage multimodaux de grande taille (MLLMs) pour générer chaque état du jeu, y compris des séquences d'animation dynamiques qui décrivent les mouvements des personnages et les mises à jour de leur état, comme illustré dans la Figure 1. Nous introduisons de nouvelles représentations multimodales sensibles à l'action pour représenter les séquences d'animation, qui peuvent être décodées en clips vidéo de haute qualité à l'aide d'un modèle de diffusion vidéo. En prenant les représentations historiques des séquences d'animation comme contexte et en prédisant les représentations suivantes, AnimeGamer peut générer des jeux avec une cohérence contextuelle et une dynamique satisfaisante. Des évaluations approfondies utilisant à la fois des métriques automatisées et des évaluations humaines démontrent qu'AnimeGamer surpasse les méthodes existantes dans divers aspects de l'expérience de jeu. Les codes et les points de contrôle sont disponibles à l'adresse https://github.com/TencentARC/AnimeGamer.
English
Recent advancements in image and video synthesis have opened up new promise
in generative games. One particularly intriguing application is transforming
characters from anime films into interactive, playable entities. This allows
players to immerse themselves in the dynamic anime world as their favorite
characters for life simulation through language instructions. Such games are
defined as infinite game since they eliminate predetermined boundaries and
fixed gameplay rules, where players can interact with the game world through
open-ended language and experience ever-evolving storylines and environments.
Recently, a pioneering approach for infinite anime life simulation employs
large language models (LLMs) to translate multi-turn text dialogues into
language instructions for image generation. However, it neglects historical
visual context, leading to inconsistent gameplay. Furthermore, it only
generates static images, failing to incorporate the dynamics necessary for an
engaging gaming experience. In this work, we propose AnimeGamer, which is built
upon Multimodal Large Language Models (MLLMs) to generate each game state,
including dynamic animation shots that depict character movements and updates
to character states, as illustrated in Figure 1. We introduce novel
action-aware multimodal representations to represent animation shots, which can
be decoded into high-quality video clips using a video diffusion model. By
taking historical animation shot representations as context and predicting
subsequent representations, AnimeGamer can generate games with contextual
consistency and satisfactory dynamics. Extensive evaluations using both
automated metrics and human evaluations demonstrate that AnimeGamer outperforms
existing methods in various aspects of the gaming experience. Codes and
checkpoints are available at https://github.com/TencentARC/AnimeGamer.Summary
AI-Generated Summary