ChatPaper.aiChatPaper

가우시안 사전 분포를 활용한 보컬 효과 스타일 전이의 추론 시간 최적화 개선

Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior

May 16, 2025
저자: Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Wei-Hsiang Liao, Yuki Mitsufuji, György Fazekas
cs.AI

초록

추론 시간 최적화를 통한 스타일 전이(ST-ITO)는 참조 오디오의 적용된 효과를 원시 오디오 트랙으로 전이시키기 위한 최근의 접근법입니다. 이 방법은 처리된 오디오와 참조 오디오의 스타일 임베딩 간의 거리를 최소화하기 위해 효과 파라미터를 최적화합니다. 그러나 이 방법은 모든 가능한 구성을 동등하게 취급하고 임베딩 공간에만 의존하기 때문에 비현실적이거나 편향된 결과를 초래할 수 있습니다. 우리는 이러한 문제를 해결하기 위해 보컬 프리셋 데이터셋인 DiffVox에서 도출된 가우시안 사전 분포를 파라미터 공간에 도입했습니다. 이로 인해 최적화는 최대사후확률(MAP) 추정과 동등하게 됩니다. MedleyDB 데이터셋에서 보컬 효과 전이에 대한 평가 결과, 제안된 방법은 블라인드 오디오 효과 추정기, 최근접 이웃 접근법, 그리고 보정되지 않은 ST-ITO를 포함한 베이스라인에 비해 다양한 메트릭에서 상당한 개선을 보였습니다. 제안된 보정은 파라미터 평균 제곱 오차를 최대 33%까지 감소시키고 참조 스타일을 더 잘 맞추는 것으로 나타났습니다. 16명의 참가자를 대상으로 한 주관적 평가는 특히 데이터가 제한된 상황에서 우리 방법의 우수성을 확인했습니다. 이 연구는 추론 시간에 사전 지식을 통합함으로써 오디오 효과 전이를 개선하고, 더 효과적이고 현실적인 오디오 처리 시스템을 위한 길을 열어줌을 보여줍니다.
English
Style Transfer with Inference-Time Optimisation (ST-ITO) is a recent approach for transferring the applied effects of a reference audio to a raw audio track. It optimises the effect parameters to minimise the distance between the style embeddings of the processed audio and the reference. However, this method treats all possible configurations equally and relies solely on the embedding space, which can lead to unrealistic or biased results. We address this pitfall by introducing a Gaussian prior derived from a vocal preset dataset, DiffVox, over the parameter space. The resulting optimisation is equivalent to maximum-a-posteriori estimation. Evaluations on vocal effects transfer on the MedleyDB dataset show significant improvements across metrics compared to baselines, including a blind audio effects estimator, nearest-neighbour approaches, and uncalibrated ST-ITO. The proposed calibration reduces parameter mean squared error by up to 33% and matches the reference style better. Subjective evaluations with 16 participants confirm our method's superiority, especially in limited data regimes. This work demonstrates how incorporating prior knowledge in inference time enhances audio effects transfer, paving the way for more effective and realistic audio processing systems.

Summary

AI-Generated Summary

PDF02May 19, 2025