AnimeGamer: 次ゲーム状態予測を備えた無限アニメライフシミュレーション
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction
April 1, 2025
著者: Junhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan
cs.AI
要旨
近年の画像および動画合成技術の進歩により、生成型ゲームに新たな可能性が開かれています。特に興味深い応用例として、アニメ映画のキャラクターをインタラクティブでプレイ可能なエンティティに変換することが挙げられます。これにより、プレイヤーは言語指示を通じて、お気に入りのキャラクターとしてダイナミックなアニメの世界に没頭し、ライフシミュレーションを体験できます。このようなゲームは、事前に設定された境界や固定されたゲームプレイルールを排除し、プレイヤーがオープンエンドな言語を通じてゲーム世界とインタラクションし、常に進化するストーリーや環境を体験できるため、無限ゲームと定義されます。最近、無限アニメライフシミュレーションの先駆的なアプローチとして、大規模言語モデル(LLMs)を使用して、マルチターンのテキスト対話を画像生成のための言語指示に変換する方法が提案されました。しかし、この方法は過去の視覚的コンテキストを無視するため、ゲームプレイに一貫性がありません。さらに、静的な画像のみを生成し、魅力的なゲーム体験に必要なダイナミクスを取り入れていません。本研究では、Multimodal Large Language Models(MLLMs)を基盤としたAnimeGamerを提案します。AnimeGamerは、図1に示すように、キャラクターの動きやキャラクター状態の更新を描いたダイナミックなアニメーションショットを含む各ゲーム状態を生成します。我々は、アニメーションショットを表現するための新しいアクション認識マルチモーダル表現を導入し、ビデオ拡散モデルを使用して高品質なビデオクリップにデコードします。過去のアニメーションショット表現をコンテキストとして取り、その後の表現を予測することで、AnimeGamerはコンテキストの一貫性と満足のいくダイナミクスを備えたゲームを生成できます。自動化されたメトリクスと人間による評価を用いた広範な評価により、AnimeGamerがゲーム体験のさまざまな側面において既存の手法を凌駕することが実証されています。コードとチェックポイントはhttps://github.com/TencentARC/AnimeGamerで公開されています。
English
Recent advancements in image and video synthesis have opened up new promise
in generative games. One particularly intriguing application is transforming
characters from anime films into interactive, playable entities. This allows
players to immerse themselves in the dynamic anime world as their favorite
characters for life simulation through language instructions. Such games are
defined as infinite game since they eliminate predetermined boundaries and
fixed gameplay rules, where players can interact with the game world through
open-ended language and experience ever-evolving storylines and environments.
Recently, a pioneering approach for infinite anime life simulation employs
large language models (LLMs) to translate multi-turn text dialogues into
language instructions for image generation. However, it neglects historical
visual context, leading to inconsistent gameplay. Furthermore, it only
generates static images, failing to incorporate the dynamics necessary for an
engaging gaming experience. In this work, we propose AnimeGamer, which is built
upon Multimodal Large Language Models (MLLMs) to generate each game state,
including dynamic animation shots that depict character movements and updates
to character states, as illustrated in Figure 1. We introduce novel
action-aware multimodal representations to represent animation shots, which can
be decoded into high-quality video clips using a video diffusion model. By
taking historical animation shot representations as context and predicting
subsequent representations, AnimeGamer can generate games with contextual
consistency and satisfactory dynamics. Extensive evaluations using both
automated metrics and human evaluations demonstrate that AnimeGamer outperforms
existing methods in various aspects of the gaming experience. Codes and
checkpoints are available at https://github.com/TencentARC/AnimeGamer.Summary
AI-Generated Summary