Tango 2: 직접 선호도 최적화를 통한 확산 기반 텍스트-오디오 생성 정렬
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization
April 15, 2024
저자: Navonil Majumder, Chia-Yu Hung, Deepanway Ghosal, Wei-Ning Hsu, Rada Mihalcea, Soujanya Poria
cs.AI
초록
생성적 멀티모달 콘텐츠는 콘텐츠 제작 분야에서 점점 더 널리 사용되고 있으며, 이는 예술가와 미디어 전문가들이 자신의 아이디어를 빠르게 실현하여 프리프로덕션 목업을 만들 수 있는 잠재력을 가지고 있습니다. 텍스트 프롬프트에서 오디오를 생성하는 것은 음악 및 영화 산업에서 이러한 프로세스의 중요한 측면입니다. 최근의 확산 기반 텍스트-투-오디오 모델들은 대규모 프롬프트-오디오 쌍 데이터셋에서 점점 더 정교한 확산 모델을 훈련하는 데 초점을 맞추고 있습니다. 이러한 모델들은 입력 프롬프트에 대한 출력 오디오에서 개념이나 이벤트의 존재 및 시간적 순서를 명시적으로 고려하지 않습니다. 우리의 가설은 이러한 오디오 생성의 측면에 초점을 맞추면 제한된 데이터 환경에서 오디오 생성 성능을 향상시킬 수 있다는 것입니다. 따라서 이 연구에서는 기존의 텍스트-투-오디오 모델인 Tango를 사용하여, 각 프롬프트에 대해 승자 오디오 출력과 패자 오디오 출력을 포함한 선호도 데이터셋을 합성적으로 생성합니다. 이론적으로 패자 출력은 프롬프트의 일부 개념이 누락되었거나 잘못된 순서로 배치된 것입니다. 우리는 공개된 Tango 텍스트-투-오디오 모델을 선호도 데이터셋에서 확산-DPO(직접 선호 최적화) 손실을 사용하여 미세 조정하고, 이를 통해 Tango와 AudioLDM2보다 향상된 오디오 출력을 자동 및 수동 평가 지표 모두에서 달성함을 보여줍니다.
English
Generative multimodal content is increasingly prevalent in much of the
content creation arena, as it has the potential to allow artists and media
personnel to create pre-production mockups by quickly bringing their ideas to
life. The generation of audio from text prompts is an important aspect of such
processes in the music and film industry. Many of the recent diffusion-based
text-to-audio models focus on training increasingly sophisticated diffusion
models on a large set of datasets of prompt-audio pairs. These models do not
explicitly focus on the presence of concepts or events and their temporal
ordering in the output audio with respect to the input prompt. Our hypothesis
is focusing on how these aspects of audio generation could improve audio
generation performance in the presence of limited data. As such, in this work,
using an existing text-to-audio model Tango, we synthetically create a
preference dataset where each prompt has a winner audio output and some loser
audio outputs for the diffusion model to learn from. The loser outputs, in
theory, have some concepts from the prompt missing or in an incorrect order. We
fine-tune the publicly available Tango text-to-audio model using diffusion-DPO
(direct preference optimization) loss on our preference dataset and show that
it leads to improved audio output over Tango and AudioLDM2, in terms of both
automatic- and manual-evaluation metrics.Summary
AI-Generated Summary