FLAP: Pre-addestramento Rapido Linguaggio-Audio
FLAP: Fast Language-Audio Pre-training
November 2, 2023
Autori: Ching-Feng Yeh, Po-Yao Huang, Vasu Sharma, Shang-Wen Li, Gargi Gosh
cs.AI
Abstract
Proponiamo Fast Language-Audio Pre-training (FLAP), un approccio auto-supervisionato che apprende in modo efficiente ed efficace rappresentazioni allineate di audio e linguaggio attraverso mascheramento, apprendimento contrastivo e ricostruzione. Per garantire efficienza, FLAP elimina casualmente token dello spettrogramma audio, concentrandosi esclusivamente su quelli rimanenti per l'auto-supervisione. Attraverso l'apprendimento contrastivo inter-modale, FLAP apprende ad allineare rappresentazioni accoppiate di audio e testo in uno spazio latente condiviso. In particolare, FLAP sfrutta molteplici viste aumentate tramite mascheramento per il contrasto inter-modale e apprende a ricostruire la porzione mascherata dei token audio. Inoltre, FLAP utilizza modelli linguistici di grandi dimensioni (LLM) per aumentare gli input testuali, contribuendo a migliorare le prestazioni. Questi approcci portano a rappresentazioni audio-testo più robuste e informative, consentendo a FLAP di raggiungere prestazioni all'avanguardia (SoTA) nelle attività di recupero audio-testo su AudioCaps (raggiungendo il 53,0% R@1) e Clotho (raggiungendo il 25,5% R@1).
English
We propose Fast Language-Audio Pre-training (FLAP), a self-supervised
approach that efficiently and effectively learns aligned audio and language
representations through masking, contrastive learning and reconstruction. For
efficiency, FLAP randomly drops audio spectrogram tokens, focusing solely on
the remaining ones for self-supervision. Through inter-modal contrastive
learning, FLAP learns to align paired audio and text representations in a
shared latent space. Notably, FLAP leverages multiple augmented views via
masking for inter-modal contrast and learns to reconstruct the masked portion
of audio tokens. Moreover, FLAP leverages large language models (LLMs) to
augment the text inputs, contributing to improved performance. These approaches
lead to more robust and informative audio-text representations, enabling FLAP
to achieve state-of-the-art (SoTA) performance on audio-text retrieval tasks on
AudioCaps (achieving 53.0% R@1) and Clotho (achieving 25.5% R@1).