EVA-GAN: 확장 가능한 생성적 적대 네트워크를 통한 향상된 다양한 오디오 생성
EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks
January 31, 2024
저자: Shijia Liao, Shiyi Lan, Arun George Zachariah
cs.AI
초록
대형 모델(Large Models)의 등장은 기계 학습의 새로운 시대를 열었으며, 방대한 데이터셋을 활용하여 복잡한 패턴을 포착하고 종합함으로써 소규모 모델을 크게 능가합니다. 이러한 발전에도 불구하고, 특히 오디오 생성 분야에서의 스케일링에 대한 탐구는 여전히 제한적이며, 이전의 연구들은 고해상도(HiFi) 44.1kHz 영역까지 확장되지 못했고, 스펙트럼 불연속성과 고주파 영역에서의 흐릿함, 그리고 도메인 외 데이터에 대한 견고성 부족 등의 문제를 겪었습니다. 이러한 한계는 음악 및 노래 생성과 같은 다양한 사용 사례에 모델의 적용 가능성을 제한합니다. 본 연구는 확장 가능한 생성적 적대 네트워크(Scalable Generative Adversarial Networks)를 통해 향상된 다양한 오디오 생성(EVA-GAN)을 소개하며, 스펙트럼 및 고주파 재구성과 도메인 외 데이터 성능에서 이전의 최첨단 기술을 크게 개선합니다. 이를 위해 36,000시간 분량의 44.1kHz 오디오 데이터셋, 컨텍스트 인식 모듈, 인간 참여형(Human-In-The-Loop) 아티팩트 측정 도구를 사용하고, 모델을 약 2억 개의 파라미터로 확장하여 HiFi 오디오 생성을 가능하게 합니다. 본 연구의 데모는 https://double-blind-eva-gan.cc에서 확인할 수 있습니다.
English
The advent of Large Models marks a new era in machine learning, significantly
outperforming smaller models by leveraging vast datasets to capture and
synthesize complex patterns. Despite these advancements, the exploration into
scaling, especially in the audio generation domain, remains limited, with
previous efforts didn't extend into the high-fidelity (HiFi) 44.1kHz domain and
suffering from both spectral discontinuities and blurriness in the
high-frequency domain, alongside a lack of robustness against out-of-domain
data. These limitations restrict the applicability of models to diverse use
cases, including music and singing generation. Our work introduces Enhanced
Various Audio Generation via Scalable Generative Adversarial Networks
(EVA-GAN), yields significant improvements over previous state-of-the-art in
spectral and high-frequency reconstruction and robustness in out-of-domain data
performance, enabling the generation of HiFi audios by employing an extensive
dataset of 36,000 hours of 44.1kHz audio, a context-aware module, a
Human-In-The-Loop artifact measurement toolkit, and expands the model to
approximately 200 million parameters. Demonstrations of our work are available
at https://double-blind-eva-gan.cc.