Audio Temporalmente Alineado para Video con Autoregresión

Resumen

Presentamos V-AURA, el primer modelo autoregresivo que logra una alta alineación temporal y relevancia en la generación de video a audio. V-AURA utiliza un extractor de características visuales de alta velocidad de fotogramas y una estrategia de fusión de características audiovisuales para capturar eventos de movimiento visual detallados y garantizar una alineación temporal precisa. Además, proponemos VisualSound, un conjunto de datos de referencia con alta relevancia audiovisual. VisualSound se basa en VGGSound, un conjunto de datos de video que consiste en muestras en entornos naturales extraídas de YouTube. Durante la curación, eliminamos muestras donde los eventos auditivos no están alineados con los visuales. V-AURA supera a los modelos actuales de última generación en alineación temporal y relevancia semántica manteniendo una calidad de audio comparable. El código, las muestras, VisualSound y los modelos están disponibles en https://v-aura.notion.site

English

We introduce V-AURA, the first autoregressive model to achieve high temporal alignment and relevance in video-to-audio generation. V-AURA uses a high-framerate visual feature extractor and a cross-modal audio-visual feature fusion strategy to capture fine-grained visual motion events and ensure precise temporal alignment. Additionally, we propose VisualSound, a benchmark dataset with high audio-visual relevance. VisualSound is based on VGGSound, a video dataset consisting of in-the-wild samples extracted from YouTube. During the curation, we remove samples where auditory events are not aligned with the visual ones. V-AURA outperforms current state-of-the-art models in temporal alignment and semantic relevance while maintaining comparable audio quality. Code, samples, VisualSound and models are available at https://v-aura.notion.site

Audio Temporalmente Alineado para Video con Autoregresión

Temporally Aligned Audio for Video with Autoregression

Resumen

Support