ChatPaper.aiChatPaper

NarraScore : Relier le récit visuel et la dynamique musicale par un contrôle affectif hiérarchique

NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

February 9, 2026
papers.authors: Yufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu
cs.AI

papers.abstract

La synthèse de bandes-son cohérentes pour les vidéos de longue durée reste un défi de taille, actuellement entravée par trois obstacles critiques : l'évolutivité computationnelle, la cohérence temporelle et, plus fondamentalement, une cécité sémantique généralisée à la logique narrative évolutive. Pour combler ces lacunes, nous proposons NarraScore, un cadre hiérarchique fondé sur l'idée centrale que l'émotion constitue une compression haute densité de la logique narrative. De manière unique, nous réutilisons des modèles vision-langage (VLM) figés comme capteurs affectifs continus, distillant les flux visuels haute dimension en trajectoires Valence-Arousal denses et sensibles à la narration. Mécaniquement, NarraScore emploie une stratégie d'Injection à Double Branche pour concilier structure globale et dynamisme local : une Ancre Sémantique Globale assure la stabilité stylistique, tandis qu'un Adaptateur Affectif au Niveau des Tokens modulaire ajuste la tension locale via une injection résiduelle élémentaire directe. Cette conception minimaliste contourne les goulots d'étranglement de l'attention dense et du clonage architectural, atténuant efficacement les risques de surapprentissage liés à la pénurie de données. Les expériences démontrent que NarraScore atteint un état de l'art en cohérence et alignement narratif avec une surcharge computationnelle négligeable, établissant un paradigme entièrement autonome pour la génération de bandes-son pour vidéos longues.
English
Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a Global Semantic Anchor ensures stylistic stability, while a surgical Token-Level Affective Adapter modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.
PDF111February 14, 2026