AnimeGamer: Бесконечная симуляция аниме-жизни с предсказанием следующего игрового состояния
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction
April 1, 2025
Авторы: Junhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan
cs.AI
Аннотация
Последние достижения в области синтеза изображений и видео открыли новые перспективы для генеративных игр. Особенно интригующим применением является преобразование персонажей из аниме-фильмов в интерактивные, играбельные сущности. Это позволяет игрокам погрузиться в динамичный мир аниме в роли своих любимых персонажей для симуляции жизни через языковые инструкции. Такие игры определяются как бесконечные, поскольку они устраняют предопределенные границы и фиксированные правила игрового процесса, где игроки могут взаимодействовать с игровым миром через открытые языковые команды и переживать постоянно развивающиеся сюжеты и окружение. Недавно был предложен новаторский подход для бесконечной симуляции жизни в аниме, использующий большие языковые модели (LLM) для преобразования многоходовых текстовых диалогов в языковые инструкции для генерации изображений. Однако этот подход игнорирует исторический визуальный контекст, что приводит к несогласованности игрового процесса. Кроме того, он генерирует только статические изображения, не включая динамику, необходимую для увлекательного игрового опыта. В данной работе мы предлагаем AnimeGamer, который построен на основе мультимодальных больших языковых моделей (MLLM) для генерации каждого игрового состояния, включая динамические анимационные сцены, изображающие движения персонажей и обновления их состояний, как показано на Рисунке 1. Мы вводим новые мультимодальные представления, учитывающие действия, для представления анимационных сцен, которые могут быть декодированы в высококачественные видеоклипы с использованием модели диффузии видео. Используя исторические представления анимационных сцен в качестве контекста и предсказывая последующие представления, AnimeGamer может генерировать игры с контекстуальной согласованностью и удовлетворительной динамикой. Обширные оценки с использованием как автоматизированных метрик, так и человеческих оценок демонстрируют, что AnimeGamer превосходит существующие методы в различных аспектах игрового опыта. Коды и контрольные точки доступны по адресу https://github.com/TencentARC/AnimeGamer.
English
Recent advancements in image and video synthesis have opened up new promise
in generative games. One particularly intriguing application is transforming
characters from anime films into interactive, playable entities. This allows
players to immerse themselves in the dynamic anime world as their favorite
characters for life simulation through language instructions. Such games are
defined as infinite game since they eliminate predetermined boundaries and
fixed gameplay rules, where players can interact with the game world through
open-ended language and experience ever-evolving storylines and environments.
Recently, a pioneering approach for infinite anime life simulation employs
large language models (LLMs) to translate multi-turn text dialogues into
language instructions for image generation. However, it neglects historical
visual context, leading to inconsistent gameplay. Furthermore, it only
generates static images, failing to incorporate the dynamics necessary for an
engaging gaming experience. In this work, we propose AnimeGamer, which is built
upon Multimodal Large Language Models (MLLMs) to generate each game state,
including dynamic animation shots that depict character movements and updates
to character states, as illustrated in Figure 1. We introduce novel
action-aware multimodal representations to represent animation shots, which can
be decoded into high-quality video clips using a video diffusion model. By
taking historical animation shot representations as context and predicting
subsequent representations, AnimeGamer can generate games with contextual
consistency and satisfactory dynamics. Extensive evaluations using both
automated metrics and human evaluations demonstrate that AnimeGamer outperforms
existing methods in various aspects of the gaming experience. Codes and
checkpoints are available at https://github.com/TencentARC/AnimeGamer.Summary
AI-Generated Summary