EVA-GAN: スケーラブルな生成的敵対ネットワークによる高品質多様音声生成
EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks
January 31, 2024
著者: Shijia Liao, Shiyi Lan, Arun George Zachariah
cs.AI
要旨
大規模モデルの登場は、機械学習における新たな時代の幕開けを告げ、膨大なデータセットを活用して複雑なパターンを捕捉・統合することで、小規模モデルを大幅に凌駕する性能を実現しました。しかしながら、特に音声生成分野におけるスケーリングの探求は限定的であり、これまでの取り組みは高忠実度(HiFi)44.1kHz領域にまで拡張されておらず、高周波領域でのスペクトルの不連続性やぼやけ、さらにはドメイン外データに対するロバスト性の欠如といった課題を抱えていました。これらの制約により、音楽や歌唱生成を含む多様なユースケースへのモデルの適用が制限されていました。本研究では、スケーラブルな生成的敵対ネットワーク(GAN)を活用したEnhanced Various Audio Generation(EVA-GAN)を提案し、スペクトルおよび高周波再構成、ドメイン外データ性能におけるロバスト性において、従来の最先端技術を大幅に改善しました。これにより、44.1kHzの音声データ36,000時間に及ぶ大規模データセット、コンテキスト認識モジュール、Human-In-The-Loopアーティファクト測定ツールキットを採用し、モデルを約2億パラメータに拡張することで、HiFi音声の生成を可能にしました。本研究成果のデモンストレーションはhttps://double-blind-eva-gan.ccで公開されています。
English
The advent of Large Models marks a new era in machine learning, significantly
outperforming smaller models by leveraging vast datasets to capture and
synthesize complex patterns. Despite these advancements, the exploration into
scaling, especially in the audio generation domain, remains limited, with
previous efforts didn't extend into the high-fidelity (HiFi) 44.1kHz domain and
suffering from both spectral discontinuities and blurriness in the
high-frequency domain, alongside a lack of robustness against out-of-domain
data. These limitations restrict the applicability of models to diverse use
cases, including music and singing generation. Our work introduces Enhanced
Various Audio Generation via Scalable Generative Adversarial Networks
(EVA-GAN), yields significant improvements over previous state-of-the-art in
spectral and high-frequency reconstruction and robustness in out-of-domain data
performance, enabling the generation of HiFi audios by employing an extensive
dataset of 36,000 hours of 44.1kHz audio, a context-aware module, a
Human-In-The-Loop artifact measurement toolkit, and expands the model to
approximately 200 million parameters. Demonstrations of our work are available
at https://double-blind-eva-gan.cc.