ChatPaper.aiChatPaper

FilMaster: 映画制作の原則と生成AIを統合した自動映画生成システム

FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation

June 23, 2025
著者: Kaiyi Huang, Yukun Huang, Xintao Wang, Zinan Lin, Xuefei Ning, Pengfei Wan, Di Zhang, Yu Wang, Xihui Liu
cs.AI

要旨

AI駆動型コンテンツ制作は、映画制作においてその可能性を示してきた。しかし、既存の映画生成システムは、映画制作の原則を実装するのに苦労しており、プロフェッショナル品質の映画を生成することができず、特に多様なカメラ言語や映画的なリズムが欠如している。これにより、テンプレート化されたビジュアルと魅力のないナラティブが生じている。この問題を解決するため、我々はFilMasterを紹介する。これは、プロフェッショナルグレードの映画生成のために現実世界の映画制作原則を統合したエンドツーエンドのAIシステムであり、編集可能な業界標準の出力を生成する。FilMasterは、以下の2つの主要な原則に基づいて構築されている:(1) 広範な現実世界の映画データから撮影技術を学習すること、(2) プロフェッショナルで観客中心のポストプロダクションワークフローを模倣すること。これらの原則に基づき、FilMasterは2つの段階を組み込んでいる:ユーザー入力をビデオクリップに変換するReference-Guided Generation Stageと、視覚的および聴覚的要素を調整して映画的なリズムを実現するために生の映像をオーディオビジュアル出力に変換するGenerative Post-Production Stageである。我々の生成段階では、440,000の映画クリップからなる大規模なコーパスから参照クリップを検索し、AIがプロフェッショナルなカメラ言語を生成するのを導くMulti-shot Synergized RAG Camera Language Designモジュールを強調している。我々のポストプロダクション段階では、シミュレートされた観客フィードバックに基づくRough CutとFine Cutプロセスを含むAudience-Centric Cinematic Rhythm Controlモジュールを設計し、視聴覚要素を効果的に統合して魅力的なコンテンツを実現するためにプロフェッショナルなワークフローを模倣している。このシステムは、(M)LLMsやビデオ生成モデルなどの生成AIモデルによって強化されている。さらに、我々はAI生成映画を評価するための包括的なベンチマークであるFilmEvalを紹介する。広範な実験により、FilMasterがカメラ言語設計と映画的なリズム制御において優れた性能を示し、プロフェッショナルな映画制作における生成AIの進歩を促進することが示された。
English
AI-driven content creation has shown potential in film production. However, existing film generation systems struggle to implement cinematic principles and thus fail to generate professional-quality films, particularly lacking diverse camera language and cinematic rhythm. This results in templated visuals and unengaging narratives. To address this, we introduce FilMaster, an end-to-end AI system that integrates real-world cinematic principles for professional-grade film generation, yielding editable, industry-standard outputs. FilMaster is built on two key principles: (1) learning cinematography from extensive real-world film data and (2) emulating professional, audience-centric post-production workflows. Inspired by these principles, FilMaster incorporates two stages: a Reference-Guided Generation Stage which transforms user input to video clips, and a Generative Post-Production Stage which transforms raw footage into audiovisual outputs by orchestrating visual and auditory elements for cinematic rhythm. Our generation stage highlights a Multi-shot Synergized RAG Camera Language Design module to guide the AI in generating professional camera language by retrieving reference clips from a vast corpus of 440,000 film clips. Our post-production stage emulates professional workflows by designing an Audience-Centric Cinematic Rhythm Control module, including Rough Cut and Fine Cut processes informed by simulated audience feedback, for effective integration of audiovisual elements to achieve engaging content. The system is empowered by generative AI models like (M)LLMs and video generation models. Furthermore, we introduce FilmEval, a comprehensive benchmark for evaluating AI-generated films. Extensive experiments show FilMaster's superior performance in camera language design and cinematic rhythm control, advancing generative AI in professional filmmaking.
PDF51June 27, 2025