Tango 2: Alinhando Gerações de Texto para Áudio Baseadas em Difusão através de Otimização Direta de Preferências
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization
April 15, 2024
Autores: Navonil Majumder, Chia-Yu Hung, Deepanway Ghosal, Wei-Ning Hsu, Rada Mihalcea, Soujanya Poria
cs.AI
Resumo
O conteúdo generativo multimodal está se tornando cada vez mais prevalente em grande parte do cenário de criação de conteúdo, pois tem o potencial de permitir que artistas e profissionais de mídia criem protótipos de pré-produção, trazendo suas ideias à vida de forma rápida. A geração de áudio a partir de prompts de texto é um aspecto importante desses processos na indústria da música e do cinema. Muitos dos recentes modelos de texto para áudio baseados em difusão concentram-se no treinamento de modelos de difusão cada vez mais sofisticados em um grande conjunto de dados de pares prompt-áudio. Esses modelos não se concentram explicitamente na presença de conceitos ou eventos e em sua ordenação temporal no áudio gerado em relação ao prompt de entrada. Nossa hipótese é que focar nesses aspectos da geração de áudio poderia melhorar o desempenho da geração de áudio na presença de dados limitados. Assim, neste trabalho, utilizando o modelo existente de texto para áudio Tango, criamos sinteticamente um conjunto de dados de preferência onde cada prompt tem uma saída de áudio vencedora e algumas saídas de áudio perdedoras para o modelo de difusão aprender. As saídas perdedoras, em teoria, têm alguns conceitos do prompt ausentes ou em uma ordem incorreta. Ajustamos o modelo Tango de texto para áudio, disponível publicamente, usando a função de perda de otimização direta de preferência (diffusion-DPO) em nosso conjunto de dados de preferência e mostramos que isso leva a uma melhoria na saída de áudio em relação ao Tango e ao AudioLDM2, tanto em termos de métricas de avaliação automática quanto manual.
English
Generative multimodal content is increasingly prevalent in much of the
content creation arena, as it has the potential to allow artists and media
personnel to create pre-production mockups by quickly bringing their ideas to
life. The generation of audio from text prompts is an important aspect of such
processes in the music and film industry. Many of the recent diffusion-based
text-to-audio models focus on training increasingly sophisticated diffusion
models on a large set of datasets of prompt-audio pairs. These models do not
explicitly focus on the presence of concepts or events and their temporal
ordering in the output audio with respect to the input prompt. Our hypothesis
is focusing on how these aspects of audio generation could improve audio
generation performance in the presence of limited data. As such, in this work,
using an existing text-to-audio model Tango, we synthetically create a
preference dataset where each prompt has a winner audio output and some loser
audio outputs for the diffusion model to learn from. The loser outputs, in
theory, have some concepts from the prompt missing or in an incorrect order. We
fine-tune the publicly available Tango text-to-audio model using diffusion-DPO
(direct preference optimization) loss on our preference dataset and show that
it leads to improved audio output over Tango and AudioLDM2, in terms of both
automatic- and manual-evaluation metrics.