Cut2Next: 인-컨텍스트 튜닝을 통한 다음 샷 생성
Cut2Next: Generating Next Shot via In-Context Tuning
August 11, 2025
저자: Jingwen He, Hongbo Liu, Jiajun Li, Ziqi Huang, Yu Qiao, Wanli Ouyang, Ziwei Liu
cs.AI
초록
효과적인 멀티샷 생성은 목적 지향적이고 영화 같은 전환과 엄격한 시네마틱 연속성을 요구한다. 그러나 현재의 방법들은 기본적인 시각적 일관성을 우선시하며, 매력적인 스토리텔링을 위한 내러티브 흐름을 이끄는 중요한 편집 패턴(예: 샷/리버스 샷, 컷어웨이)을 소홀히 하는 경우가 많다. 이는 시각적으로는 일관성이 있지만 내러티브의 정교함과 진정한 시네마틱 무결성이 부족한 결과물을 낳는다. 이를 해결하기 위해 우리는 Next Shot Generation(NSG)을 소개한다: NSG는 엄격한 시네마틱 연속성을 유지하면서도 전문적인 편집 패턴에 부합하는 고품질의 후속 샷을 합성한다. 우리의 프레임워크인 Cut2Next는 Diffusion Transformer(DiT)를 활용한다. 이는 새로운 Hierarchical Multi-Prompting 전략에 의해 안내되는 인-컨텍스트 튜닝을 사용한다. 이 전략은 Relational Prompts를 사용하여 전체 컨텍스트와 샷 간 편집 스타일을 정의한다. Individual Prompts는 각 샷의 콘텐츠와 시네마토그래피 속성을 지정한다. 이를 통해 Cut2Next는 시네마틱적으로 적절한 다음 샷을 생성하도록 안내된다. 아키텍처 혁신인 Context-Aware Condition Injection(CACI)과 Hierarchical Attention Mask(HAM)는 새로운 파라미터를 도입하지 않고도 이러한 다양한 신호를 통합한다. 우리는 Hierarchical Prompts를 포함한 RawCuts(대규모)와 CuratedCuts(정제된) 데이터셋을 구축하고, 평가를 위한 CutBench를 소개한다. 실험 결과 Cut2Next는 시각적 일관성과 텍스트 충실도에서 우수한 성능을 보였다. 특히, 사용자 연구는 Cut2Next가 의도된 편집 패턴과 전반적인 시네마틱 연속성을 준수하는 데 있어 강한 선호도를 보여주었으며, 이는 고품질, 내러티브적으로 표현력 있고 시네마틱적으로 일관된 후속 샷을 생성하는 능력을 검증한다.
English
Effective multi-shot generation demands purposeful, film-like transitions and
strict cinematic continuity. Current methods, however, often prioritize basic
visual consistency, neglecting crucial editing patterns (e.g., shot/reverse
shot, cutaways) that drive narrative flow for compelling storytelling. This
yields outputs that may be visually coherent but lack narrative sophistication
and true cinematic integrity. To bridge this, we introduce Next Shot Generation
(NSG): synthesizing a subsequent, high-quality shot that critically conforms to
professional editing patterns while upholding rigorous cinematic continuity.
Our framework, Cut2Next, leverages a Diffusion Transformer (DiT). It employs
in-context tuning guided by a novel Hierarchical Multi-Prompting strategy. This
strategy uses Relational Prompts to define overall context and inter-shot
editing styles. Individual Prompts then specify per-shot content and
cinematographic attributes. Together, these guide Cut2Next to generate
cinematically appropriate next shots. Architectural innovations, Context-Aware
Condition Injection (CACI) and Hierarchical Attention Mask (HAM), further
integrate these diverse signals without introducing new parameters. We
construct RawCuts (large-scale) and CuratedCuts (refined) datasets, both with
hierarchical prompts, and introduce CutBench for evaluation. Experiments show
Cut2Next excels in visual consistency and text fidelity. Crucially, user
studies reveal a strong preference for Cut2Next, particularly for its adherence
to intended editing patterns and overall cinematic continuity, validating its
ability to generate high-quality, narratively expressive, and cinematically
coherent subsequent shots.