Re-Bottleneck: Ristrutturazione Latente per Autoencoder Neurali Audio
Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders
July 10, 2025
Autori: Dimitrios Bralios, Jonah Casebeer, Paris Smaragdis
cs.AI
Abstract
I codec neurali audio e gli autoencoder sono emersi come modelli versatili per la compressione audio, la trasmissione, l'estrazione di caratteristiche e la generazione di spazi latenti. Tuttavia, una limitazione chiave è che la maggior parte di essi viene addestrata per massimizzare la fedeltà di ricostruzione, spesso trascurando la struttura latente specifica necessaria per ottenere prestazioni ottimali in diverse applicazioni downstream. Proponiamo un semplice framework post-hoc per affrontare questo problema modificando il collo di bottiglia di un autoencoder pre-addestrato. Il nostro metodo introduce un "Re-Bottleneck", un collo di bottiglia interno addestrato esclusivamente attraverso perdite nello spazio latente per instillare una struttura definita dall'utente. Dimostriamo l'efficacia del framework in tre esperimenti. In primo luogo, imponiamo un ordinamento sui canali latenti senza sacrificare la qualità di ricostruzione. In secondo luogo, allineiamo i latenti con embedding semantici, analizzando l'impatto sulla modellazione diffusion downstream. In terzo luogo, introduciamo l'equivarianza, garantendo che un'operazione di filtraggio sulla forma d'onda in ingresso corrisponda direttamente a una specifica trasformazione nello spazio latente. In definitiva, il nostro framework Re-Bottleneck offre un modo flessibile ed efficiente per adattare le rappresentazioni dei modelli neurali audio, consentendo loro di soddisfare senza soluzione di continuità le varie esigenze di diverse applicazioni con un addestramento aggiuntivo minimo.
English
Neural audio codecs and autoencoders have emerged as versatile models for
audio compression, transmission, feature-extraction, and latent-space
generation. However, a key limitation is that most are trained to maximize
reconstruction fidelity, often neglecting the specific latent structure
necessary for optimal performance in diverse downstream applications. We
propose a simple, post-hoc framework to address this by modifying the
bottleneck of a pre-trained autoencoder. Our method introduces a
"Re-Bottleneck", an inner bottleneck trained exclusively through latent space
losses to instill user-defined structure. We demonstrate the framework's
effectiveness in three experiments. First, we enforce an ordering on latent
channels without sacrificing reconstruction quality. Second, we align latents
with semantic embeddings, analyzing the impact on downstream diffusion
modeling. Third, we introduce equivariance, ensuring that a filtering operation
on the input waveform directly corresponds to a specific transformation in the
latent space. Ultimately, our Re-Bottleneck framework offers a flexible and
efficient way to tailor representations of neural audio models, enabling them
to seamlessly meet the varied demands of different applications with minimal
additional training.