NarraScore: Overbrugging van Visueel Verhaal en Muzikale Dynamiek via Hiërarchische Affectieve Controle
NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control
February 9, 2026
Auteurs: Yufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu
cs.AI
Samenvatting
Het synthetiseren van coherente soundtracks voor lange video's blijft een formidabele uitdaging, die momenteel wordt belemmerd door drie kritieke obstakels: computationele schaalbaarheid, temporele coherentie, en, het belangrijkst, een alomtegenwoordige semantische blindheid voor evoluerende narratieve logica. Om deze kloof te overbruggen, stellen we NarraScore voor, een hiërarchisch framework gebaseerd op de kerninzicht dat emotie dient als een hoogwaardige compressie van narratieve logica. Op unieke wijze hergebruiken we bevroren Vision-Language Modellen (VLM's) als continue affectieve sensoren, die hoogdimensionale visuele stromen destilleren tot dichte, narratief-bewuste Valence-Arousal-trajecten. Mechanistisch gezien hanteert NarraScore een Dual-Branch Injectiestrategie om globale structuur met lokale dynamiek te verzoenen: een Globale Semantische Anker zorgt voor stilistische stabiliteit, terwijl een chirurgische Token-Level Affectieve Adapter de lokale spanning moduleert via directe elementgewijze residuele injectie. Dit minimalistische ontwerp omzeilt de knelpunten van dichte aandacht en architecturaal klonen, en vermindert effectief de overfittingsrisico's die gepaard gaan met dataschaarste. Experimenten tonen aan dat NarraScore state-of-the-art consistentie en narratieve afstemming bereikt met verwaarloosbare computationele overhead, waarmee een volledig autonoom paradigma voor soundtrackgeneratie voor lange video's wordt gevestigd.
English
Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a Global Semantic Anchor ensures stylistic stability, while a surgical Token-Level Affective Adapter modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.