NarraScore: Соединение визуального нарратива и музыкальной динамики через иерархический аффективный контроль

Аннотация

Создание связных саундтреков для длинных видео остается сложной задачей, в настоящее время сдерживаемой тремя ключевыми препятствиями: вычислительной масштабируемостью, временной согласованностью и, что наиболее важно, повсеместной семантической слепотой к развивающейся нарративной логике. Для преодоления этих пробелов мы предлагаем NarraScore — иерархическую структуру, основанную на ключевой идее о том, что эмоции служат высокоплотным сжатием повествовательной логики. Уникальным образом мы перепрофилируем замороженные модели «визуальный язык-текст» (Vision-Language Models, VLM) в качестве непрерывных аффективных сенсоров, преобразуя высокоразмерные визуальные потоки в плотные, учитывающие повествование траектории валентности-возбуждения. На механическом уровне NarraScore использует стратегию Dual-Branch Injection для согласования глобальной структуры с локальной динамикой: глобальный семантический якорь обеспечивает стилистическую стабильность, в то время как точный аффективный адаптер на уровне токенов модулирует локальное напряжение посредством прямой поэлементной остаточной инъекции. Этот минималистичный дизайн обходит узкие места плотного внимания и архитектурного клонирования, эффективно снижая риски переобучения, связанные с недостатком данных. Эксперименты показывают, что NarraScore достигает наилучших показателей согласованности и соответствия повествованию при незначительных вычислительных затратах, устанавливая полностью автономную парадигму для генерации саундтреков к длинным видео.

English

Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a Global Semantic Anchor ensures stylistic stability, while a surgical Token-Level Affective Adapter modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.

NarraScore: Соединение визуального нарратива и музыкальной динамики через иерархический аффективный контроль

NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

Аннотация

Support