Cut2Next : Génération du plan suivant par réglage en contexte
Cut2Next: Generating Next Shot via In-Context Tuning
August 11, 2025
papers.authors: Jingwen He, Hongbo Liu, Jiajun Li, Ziqi Huang, Yu Qiao, Wanli Ouyang, Ziwei Liu
cs.AI
papers.abstract
La génération efficace de plans multiples exige des transitions intentionnelles, semblables à celles du cinéma, et une continuité cinématographique rigoureuse. Les méthodes actuelles, cependant, privilégient souvent une cohérence visuelle basique, négligeant les motifs de montage cruciaux (par exemple, champ/contre-champ, plans de coupe) qui animent le flux narratif pour un récit captivant. Cela produit des résultats qui peuvent être visuellement cohérents mais manquent de sophistication narrative et d'intégrité cinématographique véritable. Pour combler cette lacune, nous introduisons la génération de plans suivants (Next Shot Generation, NSG) : synthétiser un plan ultérieur de haute qualité qui respecte de manière critique les motifs de montage professionnels tout en maintenant une continuité cinématographique rigoureuse. Notre cadre, Cut2Next, s'appuie sur un Transformer de Diffusion (DiT). Il utilise un réglage en contexte guidé par une nouvelle stratégie de Multi-Prompting Hiérarchique. Cette stratégie utilise des Prompts Relationnels pour définir le contexte global et les styles de montage inter-plans. Les Prompts Individuels spécifient ensuite le contenu par plan et les attributs cinématographiques. Ensemble, ces éléments guident Cut2Next pour générer des plans suivants cinématographiquement appropriés. Des innovations architecturales, l'Injection de Condition Contextuellement Consciente (Context-Aware Condition Injection, CACI) et le Masque d'Attention Hiérarchique (Hierarchical Attention Mask, HAM), intègrent davantage ces signaux divers sans introduire de nouveaux paramètres. Nous construisons les ensembles de données RawCuts (à grande échelle) et CuratedCuts (raffinés), tous deux dotés de prompts hiérarchiques, et introduisons CutBench pour l'évaluation. Les expériences montrent que Cut2Next excelle en cohérence visuelle et fidélité textuelle. Crucialement, les études utilisateurs révèlent une forte préférence pour Cut2Next, en particulier pour son adhésion aux motifs de montage intentionnels et à la continuité cinématographique globale, validant sa capacité à générer des plans suivants de haute qualité, expressifs sur le plan narratif et cohérents sur le plan cinématographique.
English
Effective multi-shot generation demands purposeful, film-like transitions and
strict cinematic continuity. Current methods, however, often prioritize basic
visual consistency, neglecting crucial editing patterns (e.g., shot/reverse
shot, cutaways) that drive narrative flow for compelling storytelling. This
yields outputs that may be visually coherent but lack narrative sophistication
and true cinematic integrity. To bridge this, we introduce Next Shot Generation
(NSG): synthesizing a subsequent, high-quality shot that critically conforms to
professional editing patterns while upholding rigorous cinematic continuity.
Our framework, Cut2Next, leverages a Diffusion Transformer (DiT). It employs
in-context tuning guided by a novel Hierarchical Multi-Prompting strategy. This
strategy uses Relational Prompts to define overall context and inter-shot
editing styles. Individual Prompts then specify per-shot content and
cinematographic attributes. Together, these guide Cut2Next to generate
cinematically appropriate next shots. Architectural innovations, Context-Aware
Condition Injection (CACI) and Hierarchical Attention Mask (HAM), further
integrate these diverse signals without introducing new parameters. We
construct RawCuts (large-scale) and CuratedCuts (refined) datasets, both with
hierarchical prompts, and introduce CutBench for evaluation. Experiments show
Cut2Next excels in visual consistency and text fidelity. Crucially, user
studies reveal a strong preference for Cut2Next, particularly for its adherence
to intended editing patterns and overall cinematic continuity, validating its
ability to generate high-quality, narratively expressive, and cinematically
coherent subsequent shots.