NarraScore: Colmare il Divario tra Narrativa Visiva e Dinamiche Musicali tramite Controllo Affettivo Gerarchico

Abstract

La sintesi di colonne sonore coerenti per video di lunga durata rimane una sfida formidabile, attualmente bloccata da tre impedimenti critici: scalabilità computazionale, coerenza temporale e, soprattutto, una pervasiva cecità semantica alla logica narrativa in evoluzione. Per colmare queste lacune, proponiamo NarraScore, un framework gerarchico basato sull'intuizione fondamentale che l'emozione funga da compressione ad alta densità della logica narrativa. In modo unico, riproponiamo modelli visione-linguaggio (VLM) congelati come sensori affettivi continui, distillando flussi visivi ad alta dimensionalità in traiettorie dense di Valenza-Attivazione consapevoli della narrazione. Meccanicamente, NarraScore impiega una strategia di Iniezione a Doppio Ramo per conciliare struttura globale e dinamismo locale: un'Ancora Semantica Globale garantisce stabilità stilistica, mentre un Adattatore Affettivo a Livello di Token modula la tensione locale tramite iniezione residua diretta elemento per elemento. Questo design minimalista evita i colli di bottiglia dell'attenzione densa e della clonazione architetturale, mitigando efficacemente i rischi di overfitting associati alla scarsità di dati. Gli esperimenti dimostrano che NarraScore raggiunge uno stato dell'arte in coerenza e allineamento narrativo con un overhead computazionale trascurabile, stabilendo un paradigma completamente autonomo per la generazione di colonne sonore per video lunghi.

English

Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a Global Semantic Anchor ensures stylistic stability, while a surgical Token-Level Affective Adapter modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.

NarraScore: Colmare il Divario tra Narrativa Visiva e Dinamiche Musicali tramite Controllo Affettivo Gerarchico

NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

Abstract

Support