ChatPaper.aiChatPaper

Anim-Director: 제어 가능한 애니메이션 비디오 생성을 위한 대규모 다중 모달 모델 기반 에이전트

Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

August 19, 2024
저자: Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang
cs.AI

초록

전통적인 애니메이션 생성 방법은 인간이 레이블을 붙인 데이터로 생성 모델을 훈련하는 데 의존하며, 이는 상당한 인적 노력을 필요로하고 높은 훈련 비용을 수반하는 복잡한 다단계 파이프라인에 의존합니다. 한정된 프롬프트 계획으로 인해 이러한 방법들은 일반적으로 간결하고 정보가 부족하며 문맥이 일관되지 않은 애니메이션을 생성합니다. 이러한 제한을 극복하고 애니메이션 프로세스를 자동화하기 위해, 우리는 대규모 다중 모달 모델(LMMs)을 핵심 프로세서로 도입하여 자율적인 애니메이션 제작 에이전트인 Anim-Director를 개첩했습니다. 이 에이전트는 주로 LMMs와 생성적 AI 도구의 고급 이해력과 추론 능력을 활용하여 간결한 서술이나 간단한 지시에 따라 애니메이션 비디오를 생성합니다. 구체적으로, 이는 세 가지 주요 단계에서 작동합니다. 첫째, Anim-Director는 사용자 입력으로부터 일관된 스토리 라인을 생성한 뒤 캐릭터 프로필 및 내/외부 설명, 나타나는 캐릭터, 내부 또는 외부, 장면 이벤트를 포함하는 상세한 감독자 스크립트를 작성합니다. 둘째, 우리는 이미지 생성 도구와 함께 LMMs를 활용하여 설정 및 장면의 시각적 이미지를 생성합니다. 이러한 이미지는 장면 설명과 나타나는 캐릭터 및 설정의 이미지를 결합한 시각 언어 프롬프팅 방법을 사용하여 다른 장면 간에 시각적 일관성을 유지하도록 설계되었습니다. 셋째, 장면 이미지는 애니메이션 비디오를 생성하기 위한 기반으로 작용하며, LMMs는 이 프로세스를 안내하기 위한 프롬프트를 생성합니다. 전체 프로세스는 LMMs가 프롬프트를 생성하고 시각적 품질을 평가하며 최적의 결과물을 선택하여 최적화하는 과정을 수동 개입 없이 자율적으로 수행됩니다.
English
Traditional animation generation methods depend on training generative models with human-labelled data, entailing a sophisticated multi-stage pipeline that demands substantial human effort and incurs high training costs. Due to limited prompting plans, these methods typically produce brief, information-poor, and context-incoherent animations. To overcome these limitations and automate the animation process, we pioneer the introduction of large multimodal models (LMMs) as the core processor to build an autonomous animation-making agent, named Anim-Director. This agent mainly harnesses the advanced understanding and reasoning capabilities of LMMs and generative AI tools to create animated videos from concise narratives or simple instructions. Specifically, it operates in three main stages: Firstly, the Anim-Director generates a coherent storyline from user inputs, followed by a detailed director's script that encompasses settings of character profiles and interior/exterior descriptions, and context-coherent scene descriptions that include appearing characters, interiors or exteriors, and scene events. Secondly, we employ LMMs with the image generation tool to produce visual images of settings and scenes. These images are designed to maintain visual consistency across different scenes using a visual-language prompting method that combines scene descriptions and images of the appearing character and setting. Thirdly, scene images serve as the foundation for producing animated videos, with LMMs generating prompts to guide this process. The whole process is notably autonomous without manual intervention, as the LMMs interact seamlessly with generative tools to generate prompts, evaluate visual quality, and select the best one to optimize the final output.

Summary

AI-Generated Summary

PDF82November 16, 2024