FilMaster : Relier les principes cinématographiques et l'IA générative pour la création automatisée de films
FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation
June 23, 2025
Auteurs: Kaiyi Huang, Yukun Huang, Xintao Wang, Zinan Lin, Xuefei Ning, Pengfei Wan, Di Zhang, Yu Wang, Xihui Liu
cs.AI
Résumé
La création de contenu pilotée par l'IA a démontré son potentiel dans la production cinématographique. Cependant, les systèmes existants de génération de films peinent à mettre en œuvre les principes cinématographiques, ce qui les empêche de produire des films de qualité professionnelle, notamment en raison d'un manque de diversité dans le langage visuel et le rythme cinématographique. Cela se traduit par des visuels stéréotypés et des récits peu captivants. Pour remédier à cela, nous présentons FilMaster, un système IA de bout en bout qui intègre les principes cinématographiques du monde réel pour générer des films de qualité professionnelle, produisant des résultats éditables et conformes aux standards de l'industrie. FilMaster repose sur deux principes clés : (1) l'apprentissage de la cinématographie à partir d'une vaste base de données de films réels et (2) l'imitation des workflows de post-production professionnels axés sur le public. Inspiré par ces principes, FilMaster intègre deux étapes : une étape de Génération Guidée par Référence qui transforme les entrées utilisateur en clips vidéo, et une étape de Post-Production Générative qui transforme les séquences brutes en sorties audiovisuelles en orchestrant les éléments visuels et auditifs pour créer un rythme cinématographique. Notre étape de génération met en avant un module de Conception de Langage Visuel Multi-plans Synergisé par RAG, qui guide l'IA dans la génération d'un langage visuel professionnel en récupérant des clips de référence à partir d'un vaste corpus de 440 000 clips de films. Notre étape de post-production imite les workflows professionnels en concevant un module de Contrôle du Rythme Cinématographique Centré sur le Public, incluant des processus de Rough Cut et Fine Cut informés par des retours simulés du public, pour une intégration efficace des éléments audiovisuels afin de produire un contenu engageant. Le système est soutenu par des modèles génératifs d'IA tels que les (M)LLMs et les modèles de génération vidéo. Par ailleurs, nous introduisons FilmEval, un benchmark complet pour évaluer les films générés par l'IA. Des expériences approfondies montrent la performance supérieure de FilMaster dans la conception du langage visuel et le contrôle du rythme cinématographique, faisant progresser l'IA générative dans le domaine de la réalisation cinématographique professionnelle.
English
AI-driven content creation has shown potential in film production. However,
existing film generation systems struggle to implement cinematic principles and
thus fail to generate professional-quality films, particularly lacking diverse
camera language and cinematic rhythm. This results in templated visuals and
unengaging narratives. To address this, we introduce FilMaster, an end-to-end
AI system that integrates real-world cinematic principles for
professional-grade film generation, yielding editable, industry-standard
outputs. FilMaster is built on two key principles: (1) learning cinematography
from extensive real-world film data and (2) emulating professional,
audience-centric post-production workflows. Inspired by these principles,
FilMaster incorporates two stages: a Reference-Guided Generation Stage which
transforms user input to video clips, and a Generative Post-Production Stage
which transforms raw footage into audiovisual outputs by orchestrating visual
and auditory elements for cinematic rhythm. Our generation stage highlights a
Multi-shot Synergized RAG Camera Language Design module to guide the AI in
generating professional camera language by retrieving reference clips from a
vast corpus of 440,000 film clips. Our post-production stage emulates
professional workflows by designing an Audience-Centric Cinematic Rhythm
Control module, including Rough Cut and Fine Cut processes informed by
simulated audience feedback, for effective integration of audiovisual elements
to achieve engaging content. The system is empowered by generative AI models
like (M)LLMs and video generation models. Furthermore, we introduce FilmEval, a
comprehensive benchmark for evaluating AI-generated films. Extensive
experiments show FilMaster's superior performance in camera language design and
cinematic rhythm control, advancing generative AI in professional filmmaking.