NarraScore: 계층적 정서 제어를 통한 시각적 내러티브와 음악적 역동성의 연계
NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control
February 9, 2026
저자: Yufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu
cs.AI
초록
장편 비디오에 대한 일관된 사운드트랙 합성은 여전히 난제로 남아 있으며, 현재 계산적 확장성, 시간적 일관성, 그리고 가장 중요한 것으로 진화하는 서사적 논리에 대한 포괄적인 의미론적 인식 부재라는 세 가지 중요한 장애물에 의해 주춤되고 있습니다. 이러한 격차를 해소하기 위해, 우리는 감정이 서사적 논리의 고밀도 압축 역할을 한다는 핵심 통찰에 기반한 계층적 프레임워크인 NarraScore를 제안합니다. 독특하게도, 우리는 고정된 Vision-Language Model(VLM)을 지속적인 정감 인지 센서로 재활용하여 고차원의 비주얼 스트림을 밀도 높고 서사를 인지하는 Valence-Arousal 궤적으로 정제합니다. 기제적으로, NarraScore는 전역 구조와 지역적 역동성을 조화시키기 위한 Dual-Branch Injection 전략을 사용합니다: Global Semantic Anchor는 스타일적 안정성을 보장하는 반면, 정밀한 Token-Level Affective Adapter는 직접적인 요소별 잔차 주입을 통해 지역적 긴장도를 조절합니다. 이러한 미니멀리스트 디자인은 집중 어텐션과 구조적 복제의 병목 현상을 우회하여 데이터 부족과 관련된 과적합 위험을 효과적으로 완화합니다. 실험을 통해 NarraScore가 무시할 수 있는 계산 오버헤드로 최첨단 일관성과 서사 정렬을 달성하며, 장편 비디오 사운드트랙 생성을 위한 완전 자율 패러다임을 정립함을 입증합니다.
English
Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a Global Semantic Anchor ensures stylistic stability, while a surgical Token-Level Affective Adapter modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.