ChatPaper.aiChatPaper

NarraScore: Überbrückung von visueller Erzählung und musikalischer Dynamik durch hierarchische affektive Steuerung

NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

February 9, 2026
papers.authors: Yufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu
cs.AI

papers.abstract

Die Synthese kohärenter Soundtracks für Langform-Videos stellt nach wie vor eine große Herausforderung dar, die derzeit durch drei kritische Hindernisse blockiert wird: Skalierbarkeit der Berechnungen, zeitliche Kohärenz und, am wichtigsten, eine tiefgreifende semantische Blindheit gegenüber der sich entwickelnden narrativen Logik. Um diese Lücken zu schließen, schlagen wir NarraScore vor, einen hierarchischen Rahmen, der auf der grundlegenden Erkenntnis basiert, dass Emotion eine hochverdichtete Komprimierung narrativer Logik darstellt. Einzigartig ist, dass wir eingefrorene Vision-Language-Modelle (VLMs) als kontinuierliche affektive Sensoren zweckentfremden, um hochdimensionale visuelle Ströme in dichte, narrativ bewusste Valenz-Arousal-Verläufe zu destillieren. Mechanistisch setzt NarraScore eine Dual-Branch-Injection-Strategie ein, um globale Struktur mit lokaler Dynamik in Einklang zu bringen: Ein Global Semantic Anchor gewährleistet stilistische Stabilität, während ein präziser Token-Level Affective Adapter die lokale Spannung durch direkte elementweise Residualinjektion moduliert. Dieses minimalistisches Design umgeht die Engpässe von Dense-Attention und architektonischem Klonen und mildert wirksam die mit Datenknappheit verbundenen Überanpassungsrisiken. Experimente zeigen, dass NarraScore state-of-the-art Konsistenz und narrative Ausrichtung mit vernachlässigbarem Rechenaufwand erreicht und damit ein vollständig autonomes Paradigma für die Soundtrack-Generierung von Langvideos etabliert.
English
Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a Global Semantic Anchor ensures stylistic stability, while a surgical Token-Level Affective Adapter modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.
PDF111February 14, 2026