재구성 병목 현상: 신경망 오디오 자동 인코더를 위한 잠재적 재구성
Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders
July 10, 2025
저자: Dimitrios Bralios, Jonah Casebeer, Paris Smaragdis
cs.AI
초록
신경망 오디오 코덱과 오토인코더는 오디오 압축, 전송, 특징 추출, 잠재 공간 생성 등 다양한 작업을 위한 다목적 모델로 부상했습니다. 그러나 대부분의 모델이 재구성 정확도를 극대화하도록 훈련되어 있어 다양한 하위 작업에서 최적의 성능을 발휘하기 위해 필요한 특정 잠재 구조를 간과하는 주요 한계가 존재합니다. 본 연구에서는 사전 훈련된 오토인코더의 병목 부분을 수정하여 이를 해결하기 위한 간단한 사후 처리 프레임워크를 제안합니다. 우리의 방법은 사용자 정의 구조를 주입하기 위해 잠재 공간 손실만을 통해 훈련되는 내부 병목인 "리-병목(Re-Bottleneck)"을 도입합니다. 이 프레임워크의 효과를 세 가지 실험을 통해 입증합니다. 첫째, 재구성 품질을 희생하지 않고 잠재 채널에 순서를 부여합니다. 둘째, 잠재 변수를 의미론적 임베딩과 정렬하여 하위 확산 모델링에 미치는 영향을 분석합니다. 셋째, 등변성을 도입하여 입력 파형에 대한 필터링 작업이 잠재 공간에서 특정 변환과 직접적으로 대응되도록 합니다. 궁극적으로, 우리의 리-병목 프레임워크는 신경망 오디오 모델의 표현을 맞춤화할 수 있는 유연하고 효율적인 방법을 제공하며, 최소한의 추가 훈련으로 다양한 애플리케이션의 요구를 원활하게 충족할 수 있게 합니다.
English
Neural audio codecs and autoencoders have emerged as versatile models for
audio compression, transmission, feature-extraction, and latent-space
generation. However, a key limitation is that most are trained to maximize
reconstruction fidelity, often neglecting the specific latent structure
necessary for optimal performance in diverse downstream applications. We
propose a simple, post-hoc framework to address this by modifying the
bottleneck of a pre-trained autoencoder. Our method introduces a
"Re-Bottleneck", an inner bottleneck trained exclusively through latent space
losses to instill user-defined structure. We demonstrate the framework's
effectiveness in three experiments. First, we enforce an ordering on latent
channels without sacrificing reconstruction quality. Second, we align latents
with semantic embeddings, analyzing the impact on downstream diffusion
modeling. Third, we introduce equivariance, ensuring that a filtering operation
on the input waveform directly corresponds to a specific transformation in the
latent space. Ultimately, our Re-Bottleneck framework offers a flexible and
efficient way to tailor representations of neural audio models, enabling them
to seamlessly meet the varied demands of different applications with minimal
additional training.