다양성 보상 CFG 증류
Diversity-Rewarded CFG Distillation
October 8, 2024
저자: Geoffrey Cideron, Andrea Agostinelli, Johan Ferret, Sertan Girgin, Romuald Elie, Olivier Bachem, Sarah Perrin, Alexandre Ramé
cs.AI
초록
생성 모델은 음악 생성과 같은 창의적인 영역을 변형하고 있으며, 분류기 없는 가이드 (CFG)와 같은 추론 시 전략이 중요한 역할을 하고 있습니다. 그러나 CFG는 생성된 콘텐츠 전체에 걸쳐 원본성과 다양성을 제한하면서 추론 비용을 두 배로 증가시킵니다. 본 논문에서는 CFG의 강점을 살리면서 한계를 극복하는 새로운 세밀 조정 절차인 다양성 보상 CFG 증류를 소개합니다. 우리의 방법론은 두 가지 교육 목표를 최적화합니다: (1) 증류 목표는 모델이 (CFG 없이) CFG로 증강된 예측을 모방하도록 장려하고, (2) 다양성 보상이 있는 RL 목표는 주어진 프롬프트에 대해 다양한 출력 생성을 촉진합니다. 세밀 조정을 통해 우리는 추론 오버헤드 없이 고품질이고 다양한 출력을 생성할 수 있는 모델 가중치를 학습합니다. 이는 또한 가중치 기반 모델 병합 전략의 잠재력을 발휘합니다: 두 모델의 가중치 사이를 보간함으로써 (첫 번째는 품질에 초점을 맞추고 두 번째는 다양성에 초점을 맞춤), 배포 시 품질-다양성 교환을 제어하고 심지어 성능을 더욱 향상시킬 수 있습니다. 우리는 MusicLM (Agostinelli et al., 2023) 텍스트-음악 생성 모델에서 광범위한 실험을 수행하였으며, 우리의 방법론이 품질-다양성 파레토 최적성 측면에서 CFG를 능가한다는 결과를 얻었습니다. 인간 평가자들에 따르면, 우리의 세밀 조정 후 병합된 모델은 CFG로 증강된 기본 모델보다 더 높은 품질-다양성을 갖는 샘플을 생성합니다. 저희의 생성물을 다음 링크에서 확인해보세요: https://google-research.github.io/seanet/musiclm/diverse_music/.
English
Generative models are transforming creative domains such as music generation,
with inference-time strategies like Classifier-Free Guidance (CFG) playing a
crucial role. However, CFG doubles inference cost while limiting originality
and diversity across generated contents. In this paper, we introduce
diversity-rewarded CFG distillation, a novel finetuning procedure that distills
the strengths of CFG while addressing its limitations. Our approach optimises
two training objectives: (1) a distillation objective, encouraging the model
alone (without CFG) to imitate the CFG-augmented predictions, and (2) an RL
objective with a diversity reward, promoting the generation of diverse outputs
for a given prompt. By finetuning, we learn model weights with the ability to
generate high-quality and diverse outputs, without any inference overhead. This
also unlocks the potential of weight-based model merging strategies: by
interpolating between the weights of two models (the first focusing on quality,
the second on diversity), we can control the quality-diversity trade-off at
deployment time, and even further boost performance. We conduct extensive
experiments on the MusicLM (Agostinelli et al., 2023) text-to-music generative
model, where our approach surpasses CFG in terms of quality-diversity Pareto
optimality. According to human evaluators, our finetuned-then-merged model
generates samples with higher quality-diversity than the base model augmented
with CFG. Explore our generations at
https://google-research.github.io/seanet/musiclm/diverse_music/.Summary
AI-Generated Summary