ChatPaper.aiChatPaper

Re-Bottleneck: Latent-Restrukturierung für neuronale Audio-Autoencoder

Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders

July 10, 2025
papers.authors: Dimitrios Bralios, Jonah Casebeer, Paris Smaragdis
cs.AI

papers.abstract

Neurale Audiocodecs und Autoencoder haben sich als vielseitige Modelle für Audiokompression, -übertragung, Merkmalsextraktion und Latentraumgenerierung etabliert. Ein zentraler Nachteil besteht jedoch darin, dass die meisten darauf trainiert sind, die Rekonstruktionsgenauigkeit zu maximieren, wobei oft die spezifische Latentraumstruktur vernachlässigt wird, die für eine optimale Leistung in verschiedenen nachgelagerten Anwendungen erforderlich ist. Wir schlagen ein einfaches, nachträgliches Framework vor, um dies zu beheben, indem wir den Engpass eines vortrainierten Autoencoders modifizieren. Unsere Methode führt einen "Re-Bottleneck" ein, einen inneren Engpass, der ausschließlich durch Latentraumverluste trainiert wird, um eine benutzerdefinierte Struktur zu verankern. Wir demonstrieren die Wirksamkeit des Frameworks in drei Experimenten. Zunächst erzwingen wir eine Ordnung der latenten Kanäle, ohne die Rekonstruktionsqualität zu beeinträchtigen. Zweitens richten wir latente Variablen an semantischen Einbettungen aus und analysieren die Auswirkungen auf die nachgelagerte Diffusionsmodellierung. Drittens führen wir Äquivarianz ein, um sicherzustellen, dass eine Filteroperation auf dem Eingangssignal direkt einer spezifischen Transformation im Latentraum entspricht. Letztendlich bietet unser Re-Bottleneck-Framework eine flexible und effiziente Möglichkeit, die Darstellungen neuronaler Audiomodelle anzupassen, sodass sie nahtlos den vielfältigen Anforderungen verschiedener Anwendungen mit minimalem zusätzlichem Training gerecht werden.
English
Neural audio codecs and autoencoders have emerged as versatile models for audio compression, transmission, feature-extraction, and latent-space generation. However, a key limitation is that most are trained to maximize reconstruction fidelity, often neglecting the specific latent structure necessary for optimal performance in diverse downstream applications. We propose a simple, post-hoc framework to address this by modifying the bottleneck of a pre-trained autoencoder. Our method introduces a "Re-Bottleneck", an inner bottleneck trained exclusively through latent space losses to instill user-defined structure. We demonstrate the framework's effectiveness in three experiments. First, we enforce an ordering on latent channels without sacrificing reconstruction quality. Second, we align latents with semantic embeddings, analyzing the impact on downstream diffusion modeling. Third, we introduce equivariance, ensuring that a filtering operation on the input waveform directly corresponds to a specific transformation in the latent space. Ultimately, our Re-Bottleneck framework offers a flexible and efficient way to tailor representations of neural audio models, enabling them to seamlessly meet the varied demands of different applications with minimal additional training.
PDF21July 11, 2025