NarraScore: 階層的感情制御による視覚的ナラティブと音楽的ダイナミクスの統合
NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control
February 9, 2026
著者: Yufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu
cs.AI
要旨
長編動画に対する一貫性のあるサウンドトラックの生成は、依然として大きな課題であり、現在以下の3つの重要な障壁によって進展が阻まれている:計算スケーラビリティ、時間的一貫性、そして最も重要なものとして、展開する物語論理に対する意味論的盲目性である。これらの課題を解決するため、我々はNarraScoreを提案する。この階層的フレームワークは、感情が物語論理の高密度圧縮表現として機能するという核心的洞察に基づいている。独自の手法として、凍結された視覚言語モデル(VLM)を連続的な感情センサーとして再活用し、高次元の視覚ストリームを物語を意識した高密度の価値-覚醒度軌跡に変換する。機構的には、NarraScoreはデュアルブランチ注入戦略を採用し、大域的な構造と局所的な躍動感を調和させる:大域意味アンカーは様式的安定性を保証し、局所的なトークンレベル感情アダプターは要素ごとの残差注入により緊張感を微調整する。このミニマリスト設計は、密な注意機構や構造複製のボトルネックを回避し、データ不足に伴う過学習リスクを効果的に軽減する。実験により、NarraScoreが計算オーバーヘッドを無視可能に抑えつつ、最先端の一貫性と物語整合性を達成し、長編動画のサウンドトラック生成における完全自律パラダイムを確立することが実証された。
English
Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a Global Semantic Anchor ensures stylistic stability, while a surgical Token-Level Affective Adapter modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.