Anim-Director: 制御可能なアニメーションビデオ生成のための大規模なマルチモーダルモデルを搭載したエージェント
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation
August 19, 2024
著者: Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang
cs.AI
要旨
従来のアニメーション生成方法は、人間がラベル付けしたデータを使用して生成モデルを訓練することに依存しており、洗練された多段階のパイプラインを必要とし、膨大な人間の労力を要し、高い訓練コストを発生させます。これらの方法は通常、制約のあるプロンプト計画により、簡潔で情報量が少なく、文脈にそぐわないアニメーションを生成します。これらの制約を克服し、アニメーションプロセスを自動化するために、私たちは大規模なマルチモーダルモデル(LMMs)を導入し、自律型アニメーション制作エージェントであるAnim-Directorを構築する先駆者となりました。このエージェントは、主にLMMsと生成AIツールの高度な理解力と推論能力を活用して、簡潔な物語や単純な指示からアニメーションビデオを作成します。具体的には、次の3つの主要段階で操作されます。まず、Anim-Directorはユーザーの入力から一貫したストーリーラインを生成し、その後、キャラクタープロファイルや室内/室外の設定、登場人物、室内または室外、およびシーンイベントを含む文脈にそったシーンの詳細な監督台本を作成します。次に、画像生成ツールを使用したLMMsを採用して、設定やシーンの視覚的な画像を生成します。これらの画像は、シーンの説明と登場人物や設定の画像を組み合わせた視覚言語プロンプティング手法を使用して、異なるシーン間で視覚的な一貫性を維持するように設計されています。最後に、シーン画像はアニメーションビデオの制作の基盤となり、LMMsがこのプロセスをガイドするためのプロンプトを生成します。この全プロセスは、LMMsがプロンプトを生成し、視覚的な品質を評価し、最適な出力を最適化するために最良のものを選択する際に、手動介入なしに自動的に行われます。
English
Traditional animation generation methods depend on training generative models
with human-labelled data, entailing a sophisticated multi-stage pipeline that
demands substantial human effort and incurs high training costs. Due to limited
prompting plans, these methods typically produce brief, information-poor, and
context-incoherent animations. To overcome these limitations and automate the
animation process, we pioneer the introduction of large multimodal models
(LMMs) as the core processor to build an autonomous animation-making agent,
named Anim-Director. This agent mainly harnesses the advanced understanding and
reasoning capabilities of LMMs and generative AI tools to create animated
videos from concise narratives or simple instructions. Specifically, it
operates in three main stages: Firstly, the Anim-Director generates a coherent
storyline from user inputs, followed by a detailed director's script that
encompasses settings of character profiles and interior/exterior descriptions,
and context-coherent scene descriptions that include appearing characters,
interiors or exteriors, and scene events. Secondly, we employ LMMs with the
image generation tool to produce visual images of settings and scenes. These
images are designed to maintain visual consistency across different scenes
using a visual-language prompting method that combines scene descriptions and
images of the appearing character and setting. Thirdly, scene images serve as
the foundation for producing animated videos, with LMMs generating prompts to
guide this process. The whole process is notably autonomous without manual
intervention, as the LMMs interact seamlessly with generative tools to generate
prompts, evaluate visual quality, and select the best one to optimize the final
output.Summary
AI-Generated Summary