Mora: Обеспечение генерации видео общего назначения с помощью многоагентной структуры.

Аннотация

Сора - первая крупномасштабная обобщенная модель генерации видео, которая привлекла значительное внимание общества. С момента ее запуска OpenAI в феврале 2024 года ни одна другая модель генерации видео не смогла повторить производительность {Sora} или ее способность поддерживать широкий спектр задач по генерации видео. Кроме того, опубликовано всего несколько моделей генерации видео, причем большинство из них закрыты для общего доступа. Для заполнения этого пробела в данной статье предлагается новая многоагентная структура Mora, которая включает несколько передовых визуальных искусственных интеллектуальных агентов для воспроизведения обобщенной генерации видео, продемонстрированной Sora. В частности, Mora может использовать несколько визуальных агентов и успешно имитировать возможности генерации видео Sora в различных задачах, таких как (1) генерация видео по тексту, (2) генерация видео изображений с условием текста, (3) расширение созданных видео, (4) редактирование видео по видео, (5) соединение видео и (6) моделирование цифровых миров. Наши обширные экспериментальные результаты показывают, что Mora достигает производительности, близкой к Sora в различных задачах. Однако существует очевидный разрыв в производительности между нашей работой и Sora, когда оценивается в целом. В заключение, мы надеемся, что этот проект сможет указать будущее направление развития генерации видео через совместных искусственных интеллектуальных агентов.

English

Sora is the first large-scale generalist video generation model that garnered significant attention across society. Since its launch by OpenAI in February 2024, no other video generation models have paralleled {Sora}'s performance or its capacity to support a broad spectrum of video generation tasks. Additionally, there are only a few fully published video generation models, with the majority being closed-source. To address this gap, this paper proposes a new multi-agent framework Mora, which incorporates several advanced visual AI agents to replicate generalist video generation demonstrated by Sora. In particular, Mora can utilize multiple visual agents and successfully mimic Sora's video generation capabilities in various tasks, such as (1) text-to-video generation, (2) text-conditional image-to-video generation, (3) extend generated videos, (4) video-to-video editing, (5) connect videos and (6) simulate digital worlds. Our extensive experimental results show that Mora achieves performance that is proximate to that of Sora in various tasks. However, there exists an obvious performance gap between our work and Sora when assessed holistically. In summary, we hope this project can guide the future trajectory of video generation through collaborative AI agents.

Mora: Обеспечение генерации видео общего назначения с помощью многоагентной структуры.

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

Аннотация

Support