ReCLAP: Miglioramento della Classificazione Audio a Zero Shot Descrivendo i Suoni
ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds
September 13, 2024
Autori: Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
cs.AI
Abstract
I modelli audio-linguistici ad apertura di vocabolario, come CLAP, offrono un approccio promettente per la classificazione audio a zero-shot (ZSAC) consentendo la classificazione con qualsiasi insieme arbitrario di categorie specificate con prompt in linguaggio naturale. In questo articolo, proponiamo un metodo semplice ma efficace per migliorare ZSAC con CLAP. In particolare, ci spostiamo dal metodo convenzionale di utilizzare prompt con etichette di categorie astratte (ad esempio, Suono di un organo) a prompt che descrivono suoni utilizzando le loro caratteristiche descrittive intrinseche in un contesto diversificato (ad esempio, I toni profondi e risonanti dell'organo riempivano la cattedrale). Per raggiungere questo obiettivo, proponiamo innanzitutto ReCLAP, un modello CLAP addestrato con didascalie audio riscritte per una migliore comprensione dei suoni in natura. Queste didascalie riscritte descrivono ogni evento sonoro nella didascalia originale utilizzando le loro caratteristiche discriminanti uniche. ReCLAP supera tutti i modelli di base sia nel recupero audio-testo multimodale che in ZSAC. Successivamente, per migliorare la classificazione audio a zero-shot con ReCLAP, proponiamo l'aumento dei prompt. Contrariamente al metodo tradizionale di utilizzare prompt di modelli predefiniti scritti a mano, generiamo prompt personalizzati per ciascuna etichetta unica nel dataset. Questi prompt personalizzati descrivono innanzitutto l'evento sonoro nell'etichetta e poi li impiegano in scene diverse. Il nostro metodo proposto migliora le prestazioni di ReCLAP su ZSAC del 1% - 18% e supera tutti i modelli di base del 1% - 55%.
English
Open-vocabulary audio-language models, like CLAP, offer a promising approach
for zero-shot audio classification (ZSAC) by enabling classification with any
arbitrary set of categories specified with natural language prompts. In this
paper, we propose a simple but effective method to improve ZSAC with CLAP.
Specifically, we shift from the conventional method of using prompts with
abstract category labels (e.g., Sound of an organ) to prompts that describe
sounds using their inherent descriptive features in a diverse context (e.g.,The
organ's deep and resonant tones filled the cathedral.). To achieve this, we
first propose ReCLAP, a CLAP model trained with rewritten audio captions for
improved understanding of sounds in the wild. These rewritten captions describe
each sound event in the original caption using their unique discriminative
characteristics. ReCLAP outperforms all baselines on both multi-modal
audio-text retrieval and ZSAC. Next, to improve zero-shot audio classification
with ReCLAP, we propose prompt augmentation. In contrast to the traditional
method of employing hand-written template prompts, we generate custom prompts
for each unique label in the dataset. These custom prompts first describe the
sound event in the label and then employ them in diverse scenes. Our proposed
method improves ReCLAP's performance on ZSAC by 1%-18% and outperforms all
baselines by 1% - 55%.Summary
AI-Generated Summary