Cut2Next : Génération du plan suivant par réglage en contexte

papers.abstract

La génération efficace de plans multiples exige des transitions intentionnelles, semblables à celles du cinéma, et une continuité cinématographique rigoureuse. Les méthodes actuelles, cependant, privilégient souvent une cohérence visuelle basique, négligeant les motifs de montage cruciaux (par exemple, champ/contre-champ, plans de coupe) qui animent le flux narratif pour un récit captivant. Cela produit des résultats qui peuvent être visuellement cohérents mais manquent de sophistication narrative et d'intégrité cinématographique véritable. Pour combler cette lacune, nous introduisons la génération de plans suivants (Next Shot Generation, NSG) : synthétiser un plan ultérieur de haute qualité qui respecte de manière critique les motifs de montage professionnels tout en maintenant une continuité cinématographique rigoureuse. Notre cadre, Cut2Next, s'appuie sur un Transformer de Diffusion (DiT). Il utilise un réglage en contexte guidé par une nouvelle stratégie de Multi-Prompting Hiérarchique. Cette stratégie utilise des Prompts Relationnels pour définir le contexte global et les styles de montage inter-plans. Les Prompts Individuels spécifient ensuite le contenu par plan et les attributs cinématographiques. Ensemble, ces éléments guident Cut2Next pour générer des plans suivants cinématographiquement appropriés. Des innovations architecturales, l'Injection de Condition Contextuellement Consciente (Context-Aware Condition Injection, CACI) et le Masque d'Attention Hiérarchique (Hierarchical Attention Mask, HAM), intègrent davantage ces signaux divers sans introduire de nouveaux paramètres. Nous construisons les ensembles de données RawCuts (à grande échelle) et CuratedCuts (raffinés), tous deux dotés de prompts hiérarchiques, et introduisons CutBench pour l'évaluation. Les expériences montrent que Cut2Next excelle en cohérence visuelle et fidélité textuelle. Crucialement, les études utilisateurs révèlent une forte préférence pour Cut2Next, en particulier pour son adhésion aux motifs de montage intentionnels et à la continuité cinématographique globale, validant sa capacité à générer des plans suivants de haute qualité, expressifs sur le plan narratif et cohérents sur le plan cinématographique.

English

Effective multi-shot generation demands purposeful, film-like transitions and strict cinematic continuity. Current methods, however, often prioritize basic visual consistency, neglecting crucial editing patterns (e.g., shot/reverse shot, cutaways) that drive narrative flow for compelling storytelling. This yields outputs that may be visually coherent but lack narrative sophistication and true cinematic integrity. To bridge this, we introduce Next Shot Generation (NSG): synthesizing a subsequent, high-quality shot that critically conforms to professional editing patterns while upholding rigorous cinematic continuity. Our framework, Cut2Next, leverages a Diffusion Transformer (DiT). It employs in-context tuning guided by a novel Hierarchical Multi-Prompting strategy. This strategy uses Relational Prompts to define overall context and inter-shot editing styles. Individual Prompts then specify per-shot content and cinematographic attributes. Together, these guide Cut2Next to generate cinematically appropriate next shots. Architectural innovations, Context-Aware Condition Injection (CACI) and Hierarchical Attention Mask (HAM), further integrate these diverse signals without introducing new parameters. We construct RawCuts (large-scale) and CuratedCuts (refined) datasets, both with hierarchical prompts, and introduce CutBench for evaluation. Experiments show Cut2Next excels in visual consistency and text fidelity. Crucially, user studies reveal a strong preference for Cut2Next, particularly for its adherence to intended editing patterns and overall cinematic continuity, validating its ability to generate high-quality, narratively expressive, and cinematically coherent subsequent shots.

Cut2Next : Génération du plan suivant par réglage en contexte

Cut2Next: Generating Next Shot via In-Context Tuning

papers.abstract

Support