Re-Bottleneck: Ristrutturazione Latente per Autoencoder Neurali Audio

Abstract

I codec neurali audio e gli autoencoder sono emersi come modelli versatili per la compressione audio, la trasmissione, l'estrazione di caratteristiche e la generazione di spazi latenti. Tuttavia, una limitazione chiave è che la maggior parte di essi viene addestrata per massimizzare la fedeltà di ricostruzione, spesso trascurando la struttura latente specifica necessaria per ottenere prestazioni ottimali in diverse applicazioni downstream. Proponiamo un semplice framework post-hoc per affrontare questo problema modificando il collo di bottiglia di un autoencoder pre-addestrato. Il nostro metodo introduce un "Re-Bottleneck", un collo di bottiglia interno addestrato esclusivamente attraverso perdite nello spazio latente per instillare una struttura definita dall'utente. Dimostriamo l'efficacia del framework in tre esperimenti. In primo luogo, imponiamo un ordinamento sui canali latenti senza sacrificare la qualità di ricostruzione. In secondo luogo, allineiamo i latenti con embedding semantici, analizzando l'impatto sulla modellazione diffusion downstream. In terzo luogo, introduciamo l'equivarianza, garantendo che un'operazione di filtraggio sulla forma d'onda in ingresso corrisponda direttamente a una specifica trasformazione nello spazio latente. In definitiva, il nostro framework Re-Bottleneck offre un modo flessibile ed efficiente per adattare le rappresentazioni dei modelli neurali audio, consentendo loro di soddisfare senza soluzione di continuità le varie esigenze di diverse applicazioni con un addestramento aggiuntivo minimo.

English

Neural audio codecs and autoencoders have emerged as versatile models for audio compression, transmission, feature-extraction, and latent-space generation. However, a key limitation is that most are trained to maximize reconstruction fidelity, often neglecting the specific latent structure necessary for optimal performance in diverse downstream applications. We propose a simple, post-hoc framework to address this by modifying the bottleneck of a pre-trained autoencoder. Our method introduces a "Re-Bottleneck", an inner bottleneck trained exclusively through latent space losses to instill user-defined structure. We demonstrate the framework's effectiveness in three experiments. First, we enforce an ordering on latent channels without sacrificing reconstruction quality. Second, we align latents with semantic embeddings, analyzing the impact on downstream diffusion modeling. Third, we introduce equivariance, ensuring that a filtering operation on the input waveform directly corresponds to a specific transformation in the latent space. Ultimately, our Re-Bottleneck framework offers a flexible and efficient way to tailor representations of neural audio models, enabling them to seamlessly meet the varied demands of different applications with minimal additional training.

Re-Bottleneck: Ristrutturazione Latente per Autoencoder Neurali Audio

Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders

Abstract

Support