ChatPaper.aiChatPaper

Mora: 다중 에이전트 프레임워크를 통한 범용 비디오 생성 기술

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

March 20, 2024
저자: Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun
cs.AI

초록

Sora는 사회 전반에 걸쳐 큰 주목을 받은 최초의 대규모 범용 비디오 생성 모델입니다. OpenAI가 2024년 2월에 출시한 이후, Sora의 성능이나 다양한 비디오 생성 작업을 지원하는 능력에 필적할 만한 다른 비디오 생성 모델은 아직 등장하지 않았습니다. 또한, 완전히 공개된 비디오 생성 모델은 극소수에 불과하며, 대부분은 클로즈드 소스 상태입니다. 이러한 격차를 해소하기 위해, 본 논문은 Sora가 보여준 범용 비디오 생성을 모방하기 위해 여러 고급 시각 AI 에이전트를 통합한 새로운 다중 에이전트 프레임워크인 Mora를 제안합니다. 특히, Mora는 여러 시각 에이전트를 활용하여 (1) 텍스트-투-비디오 생성, (2) 텍스트 조건부 이미지-투-비디오 생성, (3) 생성된 비디오 확장, (4) 비디오-투-비디오 편집, (5) 비디오 연결, (6) 디지털 세계 시뮬레이션과 같은 다양한 작업에서 Sora의 비디오 생성 능력을 성공적으로 모방할 수 있습니다. 우리의 광범위한 실험 결과는 Mora가 다양한 작업에서 Sora에 근접한 성능을 달성함을 보여줍니다. 그러나 전반적으로 평가했을 때, 우리의 작업과 Sora 사이에는 명백한 성능 격차가 존재합니다. 요약하자면, 우리는 이 프로젝트가 협력적인 AI 에이전트를 통해 비디오 생성의 미래 방향을 이끌어갈 수 있기를 바랍니다.
English
Sora is the first large-scale generalist video generation model that garnered significant attention across society. Since its launch by OpenAI in February 2024, no other video generation models have paralleled {Sora}'s performance or its capacity to support a broad spectrum of video generation tasks. Additionally, there are only a few fully published video generation models, with the majority being closed-source. To address this gap, this paper proposes a new multi-agent framework Mora, which incorporates several advanced visual AI agents to replicate generalist video generation demonstrated by Sora. In particular, Mora can utilize multiple visual agents and successfully mimic Sora's video generation capabilities in various tasks, such as (1) text-to-video generation, (2) text-conditional image-to-video generation, (3) extend generated videos, (4) video-to-video editing, (5) connect videos and (6) simulate digital worlds. Our extensive experimental results show that Mora achieves performance that is proximate to that of Sora in various tasks. However, there exists an obvious performance gap between our work and Sora when assessed holistically. In summary, we hope this project can guide the future trajectory of video generation through collaborative AI agents.

Summary

AI-Generated Summary

PDF797December 15, 2024