ChatPaper.aiChatPaper

NarraScore: Conectando Narrativa Visual e Dinâmica Musical através de Controle Afetivo Hierárquico

NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

February 9, 2026
Autores: Yufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu
cs.AI

Resumo

A síntese de trilhas sonoras coerentes para vídeos de longa duração permanece um desafio formidável, atualmente estagnada por três impedimentos críticos: escalabilidade computacional, coerência temporal e, mais crucialmente, uma cegueira semântica generalizada para a lógica narrativa em evolução. Para superar essas lacunas, propomos o NarraScore, uma estrutura hierárquica baseada na premissa central de que a emoção serve como uma compressão de alta densidade da lógica narrativa. De forma única, reaproveitamos Modelos de Visão e Linguagem (VLMs) congelados como sensores afetivos contínuos, destilando fluxos visuais de alta dimensão em trajetórias densas e conscientes da narrativa de Valência-Excitação. Mecanicamente, o NarraScore emprega uma estratégia de Injeção Dual para reconciliar a estrutura global com o dinamismo local: uma Âncora Semântica Global garante estabilidade estilística, enquanto um Adaptador Afetivo de Nível de Token modula a tensão local via injeção residual direta elemento a elemento. Este design minimalista contorna os gargalos da atenção densa e da clonagem arquitetônica, mitigando efetivamente os riscos de sobreajuste associados à escassez de dados. Experimentos demonstram que o NarraScore alcança consistência e alinhamento narrativo de última geração com sobrecarga computacional insignificante, estabelecendo um paradigma totalmente autônomo para a geração de trilhas sonoras para vídeos longos.
English
Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a Global Semantic Anchor ensures stylistic stability, while a surgical Token-Level Affective Adapter modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.
PDF442March 17, 2026