Audio Temporalmente Alineado para Video con Autoregresión
Temporally Aligned Audio for Video with Autoregression
September 20, 2024
Autores: Ilpo Viertola, Vladimir Iashin, Esa Rahtu
cs.AI
Resumen
Presentamos V-AURA, el primer modelo autoregresivo que logra una alta alineación temporal y relevancia en la generación de video a audio. V-AURA utiliza un extractor de características visuales de alta velocidad de fotogramas y una estrategia de fusión de características audiovisuales para capturar eventos de movimiento visual detallados y garantizar una alineación temporal precisa. Además, proponemos VisualSound, un conjunto de datos de referencia con alta relevancia audiovisual. VisualSound se basa en VGGSound, un conjunto de datos de video que consiste en muestras en entornos naturales extraídas de YouTube. Durante la curación, eliminamos muestras donde los eventos auditivos no están alineados con los visuales. V-AURA supera a los modelos actuales de última generación en alineación temporal y relevancia semántica manteniendo una calidad de audio comparable. El código, las muestras, VisualSound y los modelos están disponibles en https://v-aura.notion.site
English
We introduce V-AURA, the first autoregressive model to achieve high temporal
alignment and relevance in video-to-audio generation. V-AURA uses a
high-framerate visual feature extractor and a cross-modal audio-visual feature
fusion strategy to capture fine-grained visual motion events and ensure precise
temporal alignment. Additionally, we propose VisualSound, a benchmark dataset
with high audio-visual relevance. VisualSound is based on VGGSound, a video
dataset consisting of in-the-wild samples extracted from YouTube. During the
curation, we remove samples where auditory events are not aligned with the
visual ones. V-AURA outperforms current state-of-the-art models in temporal
alignment and semantic relevance while maintaining comparable audio quality.
Code, samples, VisualSound and models are available at
https://v-aura.notion.siteSummary
AI-Generated Summary