Audio Temporalmente Allineato per Video con Autoregressione
Temporally Aligned Audio for Video with Autoregression
September 20, 2024
Autori: Ilpo Viertola, Vladimir Iashin, Esa Rahtu
cs.AI
Abstract
Introduciamo V-AURA, il primo modello autoregressivo a ottenere un'alta allineamento temporale e rilevanza nella generazione video-audio. V-AURA utilizza un estrattore di caratteristiche visive ad alta frequenza di frame e una strategia di fusione di caratteristiche audio-visive cross-modal per catturare eventi di movimento visivo dettagliati e garantire un preciso allineamento temporale. Inoltre, proponiamo VisualSound, un dataset di riferimento con alta rilevanza audio-visiva. VisualSound si basa su VGGSound, un dataset video composto da campioni in condizioni naturali estratti da YouTube. Durante la cura, rimuoviamo campioni in cui gli eventi uditivi non sono allineati con quelli visivi. V-AURA supera i modelli attuali all'avanguardia nell'allineamento temporale e nella rilevanza semantica mantenendo nel contempo una qualità audio comparabile. Codice, campioni, VisualSound e modelli sono disponibili su https://v-aura.notion.site
English
We introduce V-AURA, the first autoregressive model to achieve high temporal
alignment and relevance in video-to-audio generation. V-AURA uses a
high-framerate visual feature extractor and a cross-modal audio-visual feature
fusion strategy to capture fine-grained visual motion events and ensure precise
temporal alignment. Additionally, we propose VisualSound, a benchmark dataset
with high audio-visual relevance. VisualSound is based on VGGSound, a video
dataset consisting of in-the-wild samples extracted from YouTube. During the
curation, we remove samples where auditory events are not aligned with the
visual ones. V-AURA outperforms current state-of-the-art models in temporal
alignment and semantic relevance while maintaining comparable audio quality.
Code, samples, VisualSound and models are available at
https://v-aura.notion.siteSummary
AI-Generated Summary