Audio Temporellement Aligné pour la Vidéo avec Autorégression

Résumé

Nous présentons V-AURA, le premier modèle autorégressif à atteindre un haut niveau d'alignement temporel et de pertinence dans la génération vidéo-audio. V-AURA utilise un extracteur de caractéristiques visuelles à haut taux de rafraîchissement et une stratégie de fusion de caractéristiques audio-visuelles pour capturer des événements de mouvement visuel fins et garantir un alignement temporel précis. De plus, nous proposons VisualSound, un ensemble de données de référence avec une forte pertinence audio-visuelle. VisualSound est basé sur VGGSound, un ensemble de données vidéo composé d'échantillons en conditions réelles extraits de YouTube. Lors de la sélection, nous éliminons les échantillons où les événements auditifs ne sont pas alignés avec les événements visuels. V-AURA surpasse les modèles actuels de pointe en termes d'alignement temporel et de pertinence sémantique tout en maintenant une qualité audio comparable. Le code, les échantillons, VisualSound et les modèles sont disponibles sur https://v-aura.notion.site

English

We introduce V-AURA, the first autoregressive model to achieve high temporal alignment and relevance in video-to-audio generation. V-AURA uses a high-framerate visual feature extractor and a cross-modal audio-visual feature fusion strategy to capture fine-grained visual motion events and ensure precise temporal alignment. Additionally, we propose VisualSound, a benchmark dataset with high audio-visual relevance. VisualSound is based on VGGSound, a video dataset consisting of in-the-wild samples extracted from YouTube. During the curation, we remove samples where auditory events are not aligned with the visual ones. V-AURA outperforms current state-of-the-art models in temporal alignment and semantic relevance while maintaining comparable audio quality. Code, samples, VisualSound and models are available at https://v-aura.notion.site