NarraScore: Conectando la Narrativa Visual y la Dinámica Musical mediante Control Afectivo Jerárquico
NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control
February 9, 2026
Autores: Yufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu
cs.AI
Resumen
La síntesis de bandas sonoras coherentes para videos de larga duración sigue siendo un desafío formidable, actualmente estancado por tres impedimentos críticos: la escalabilidad computacional, la coherencia temporal y, lo más crucial, una ceguera semántica generalizada hacia la lógica narrativa en evolución. Para salvar estas brechas, proponemos NarraScore, un marco jerárquico basado en la idea central de que la emoción sirve como una compresión de alta densidad de la lógica narrativa. De forma única, reutilizamos Modelos de Visión y Lenguaje (VLMs) congelados como sensores afectivos continuos, destilando flujos visuales de alta dimensión en trayectorias densas de Valencia-Excitación conscientes de la narrativa. Mecánicamente, NarraScore emplea una estrategia de Inyección de Doble Rama para reconciliar la estructura global con el dinamismo local: un Ancla Semántica Global garantiza la estabilidad estilística, mientras que un Adaptador Afectivo a Nivel de Token quirúrgico modula la tensión local mediante una inyección residual directa elemento por elemento. Este diseño minimalista evita los cuellos de botella de la atención densa y la clonación arquitectónica, mitigando eficazmente los riesgos de sobreajuste asociados con la escasez de datos. Los experimentos demuestran que NarraScore logra una coherencia y alineación narrativa de vanguardia con un overhead computacional insignificante, estableciendo un paradigma completamente autónomo para la generación de bandas sonoras para videos largos.
English
Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a Global Semantic Anchor ensures stylistic stability, while a surgical Token-Level Affective Adapter modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.