ChatPaper.aiChatPaper

인코더 수준 지식 증류를 통한 효율적인 오디오 캡셔닝

Efficient Audio Captioning with Encoder-Level Knowledge Distillation

July 19, 2024
저자: Xuenan Xu, Haohe Liu, Mengyue Wu, Wenwu Wang, Mark D. Plumbley
cs.AI

초록

최근 모델들을 통해 자동 오디오 캡셔닝(AAC) 분야에서 상당한 개선이 이루어졌습니다. 그러나 이러한 모델들은 성능이 향상됨에 따라 점점 더 커지는 경향을 보입니다. 본 연구에서는 AAC를 위한 지식 증류(KD) 프레임워크를 제안합니다. 우리의 분석에 따르면, 인코더-디코더 기반 AAC 모델에서 지식을 디코더보다는 인코더로 증류하는 것이 더 효과적임을 확인했습니다. 이를 위해, 표준 지도 학습 손실과 시퀀스 수준의 KD 손실 외에도 인코더 수준의 KD 손실을 학습에 통합했습니다. 우리는 평균 제곱 오차(MSE) 손실과 대조 손실을 기반으로 한 두 가지 인코더 수준의 KD 방법을 조사했습니다. 실험 결과, 대조 KD가 MSE KD보다 더 강건하며, 데이터가 부족한 상황에서도 우수한 성능을 보이는 것으로 나타났습니다. KD 프레임워크에서 오디오 전용 데이터를 학습에 활용함으로써, 우리의 학생 모델은 경쟁력 있는 성능을 달성했으며, 추론 속도가 19배 더 빠릅니다. 온라인 데모는 \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}에서 확인할 수 있습니다.
English
Significant improvement has been achieved in automated audio captioning (AAC) with recent models. However, these models have become increasingly large as their performance is enhanced. In this work, we propose a knowledge distillation (KD) framework for AAC. Our analysis shows that in the encoder-decoder based AAC models, it is more effective to distill knowledge into the encoder as compared with the decoder. To this end, we incorporate encoder-level KD loss into training, in addition to the standard supervised loss and sequence-level KD loss. We investigate two encoder-level KD methods, based on mean squared error (MSE) loss and contrastive loss, respectively. Experimental results demonstrate that contrastive KD is more robust than MSE KD, exhibiting superior performance in data-scarce situations. By leveraging audio-only data into training in the KD framework, our student model achieves competitive performance, with an inference speed that is 19 times fasterAn online demo is available at \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}.

Summary

AI-Generated Summary

PDF52November 28, 2024