ChatPaper.aiChatPaper

Tango 2: 直接選好最適化による拡散モデルベースのテキストから音声生成のアラインメント

Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization

April 15, 2024
著者: Navonil Majumder, Chia-Yu Hung, Deepanway Ghosal, Wei-Ning Hsu, Rada Mihalcea, Soujanya Poria
cs.AI

要旨

生成的多モーダルコンテンツは、多くのコンテンツ制作分野でますます普及しており、アーティストやメディア関係者がアイデアを迅速に形にし、制作前のモックアップを作成する可能性を秘めています。テキストプロンプトからの音声生成は、音楽や映画産業におけるこうしたプロセスの重要な側面です。最近の拡散モデルベースのテキストtoオーディオモデルの多くは、プロンプトとオーディオのペアからなる大規模なデータセットを用いて、ますます洗練された拡散モデルの訓練に焦点を当てています。これらのモデルは、出力オーディオにおける概念やイベントの存在、およびそれらの時間的順序が入力プロンプトとどのように関連しているかについて、明示的には注目していません。我々の仮説は、これらの音声生成の側面に焦点を当てることが、限られたデータの状況下での音声生成性能を向上させる可能性があるというものです。そこで本研究では、既存のテキストtoオーディオモデルTangoを用いて、各プロンプトに対して勝者となるオーディオ出力と敗者となるオーディオ出力を人工的に作成した選好データセットを構築しました。敗者となる出力は、理論的にはプロンプトの一部の概念が欠落していたり、順序が誤っていたりするものです。我々は、この選好データセットに対して拡散-DPO(直接選好最適化)損失を用いて公開されているTangoテキストtoオーディオモデルをファインチューニングし、自動評価指標と手動評価指標の両方において、TangoやAudioLDM2を上回る改善されたオーディオ出力が得られることを示しました。
English
Generative multimodal content is increasingly prevalent in much of the content creation arena, as it has the potential to allow artists and media personnel to create pre-production mockups by quickly bringing their ideas to life. The generation of audio from text prompts is an important aspect of such processes in the music and film industry. Many of the recent diffusion-based text-to-audio models focus on training increasingly sophisticated diffusion models on a large set of datasets of prompt-audio pairs. These models do not explicitly focus on the presence of concepts or events and their temporal ordering in the output audio with respect to the input prompt. Our hypothesis is focusing on how these aspects of audio generation could improve audio generation performance in the presence of limited data. As such, in this work, using an existing text-to-audio model Tango, we synthetically create a preference dataset where each prompt has a winner audio output and some loser audio outputs for the diffusion model to learn from. The loser outputs, in theory, have some concepts from the prompt missing or in an incorrect order. We fine-tune the publicly available Tango text-to-audio model using diffusion-DPO (direct preference optimization) loss on our preference dataset and show that it leads to improved audio output over Tango and AudioLDM2, in terms of both automatic- and manual-evaluation metrics.

Summary

AI-Generated Summary

PDF120December 15, 2024