FilmAgent: Мультиагентный фреймворк для автоматизации создания фильмов в виртуальных 3D пространствах

Аннотация

Виртуальное кино производство требует сложных процессов принятия решений, включая написание сценария, виртуальную кинематографию, а также точное позиционирование и действия актеров. Вдохновленные недавними достижениями в автоматизированном принятии решений с использованием агентов на основе языка, в данной статье представляется FilmAgent, новая многоагентная коллаборативная платформа на основе LLM для автоматизации производства фильмов в наших созданных 3D виртуальных пространствах. FilmAgent моделирует различные роли съемочной группы, включая режиссеров, сценаристов, актеров и кинематографистов, и охватывает ключевые этапы рабочего процесса производства фильма: (1) разработка идеи преобразует замыслы в структурированные обзоры сюжета; (2) написание сценария разрабатывает диалоги и действия персонажей для каждой сцены; (3) кинематография определяет настройки камеры для каждого кадра. Команда агентов сотрудничает через итеративную обратную связь и корректировки, тем самым проверяя промежуточные сценарии и уменьшая галлюцинации. Мы оцениваем созданные видео на 15 идеях и 4 ключевых аспектах. Человеческая оценка показывает, что FilmAgent превосходит все базовые показатели по всем аспектам и набирает в среднем 3,98 из 5, демонстрируя возможность многозначительного сотрудничества в кинопроизводстве. Дальнейший анализ показывает, что FilmAgent, несмотря на использование менее продвинутой модели GPT-4o, превосходит одноагентную o1, демонстрируя преимущество хорошо согласованной многоагентной системы. Наконец, мы обсуждаем дополняющие силы и слабости текстово-видео модели Sora от OpenAI и нашего FilmAgent в кинопроизводстве.

English

Virtual film production requires intricate decision-making processes, including scriptwriting, virtual cinematography, and precise actor positioning and actions. Motivated by recent advances in automated decision-making with language agent-based societies, this paper introduces FilmAgent, a novel LLM-based multi-agent collaborative framework for end-to-end film automation in our constructed 3D virtual spaces. FilmAgent simulates various crew roles, including directors, screenwriters, actors, and cinematographers, and covers key stages of a film production workflow: (1) idea development transforms brainstormed ideas into structured story outlines; (2) scriptwriting elaborates on dialogue and character actions for each scene; (3) cinematography determines the camera setups for each shot. A team of agents collaborates through iterative feedback and revisions, thereby verifying intermediate scripts and reducing hallucinations. We evaluate the generated videos on 15 ideas and 4 key aspects. Human evaluation shows that FilmAgent outperforms all baselines across all aspects and scores 3.98 out of 5 on average, showing the feasibility of multi-agent collaboration in filmmaking. Further analysis reveals that FilmAgent, despite using the less advanced GPT-4o model, surpasses the single-agent o1, showing the advantage of a well-coordinated multi-agent system. Lastly, we discuss the complementary strengths and weaknesses of OpenAI's text-to-video model Sora and our FilmAgent in filmmaking.

FilmAgent: Мультиагентный фреймворк для автоматизации создания фильмов в виртуальных 3D пространствах

FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Аннотация

Support