FLAP: Pre-addestramento Rapido Linguaggio-Audio

Abstract

Proponiamo Fast Language-Audio Pre-training (FLAP), un approccio auto-supervisionato che apprende in modo efficiente ed efficace rappresentazioni allineate di audio e linguaggio attraverso mascheramento, apprendimento contrastivo e ricostruzione. Per garantire efficienza, FLAP elimina casualmente token dello spettrogramma audio, concentrandosi esclusivamente su quelli rimanenti per l'auto-supervisione. Attraverso l'apprendimento contrastivo inter-modale, FLAP apprende ad allineare rappresentazioni accoppiate di audio e testo in uno spazio latente condiviso. In particolare, FLAP sfrutta molteplici viste aumentate tramite mascheramento per il contrasto inter-modale e apprende a ricostruire la porzione mascherata dei token audio. Inoltre, FLAP utilizza modelli linguistici di grandi dimensioni (LLM) per aumentare gli input testuali, contribuendo a migliorare le prestazioni. Questi approcci portano a rappresentazioni audio-testo più robuste e informative, consentendo a FLAP di raggiungere prestazioni all'avanguardia (SoTA) nelle attività di recupero audio-testo su AudioCaps (raggiungendo il 53,0% R@1) e Clotho (raggiungendo il 25,5% R@1).

English

We propose Fast Language-Audio Pre-training (FLAP), a self-supervised approach that efficiently and effectively learns aligned audio and language representations through masking, contrastive learning and reconstruction. For efficiency, FLAP randomly drops audio spectrogram tokens, focusing solely on the remaining ones for self-supervision. Through inter-modal contrastive learning, FLAP learns to align paired audio and text representations in a shared latent space. Notably, FLAP leverages multiple augmented views via masking for inter-modal contrast and learns to reconstruct the masked portion of audio tokens. Moreover, FLAP leverages large language models (LLMs) to augment the text inputs, contributing to improved performance. These approaches lead to more robust and informative audio-text representations, enabling FLAP to achieve state-of-the-art (SoTA) performance on audio-text retrieval tasks on AudioCaps (achieving 53.0% R@1) and Clotho (achieving 25.5% R@1).

FLAP: Pre-addestramento Rapido Linguaggio-Audio

FLAP: Fast Language-Audio Pre-training

Abstract

Support