텍스트-이미지 생성을 위한 풍부한 인간 피드백
Rich Human Feedback for Text-to-Image Generation
December 15, 2023
저자: Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katie Collins, Yiwen Luo, Yang Li, Kai J Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam
cs.AI
초록
최근 Stable Diffusion과 Imagen과 같은 텍스트-이미지(T2I) 생성 모델은 텍스트 설명을 기반으로 고해상도 이미지를 생성하는 데 있어 상당한 진전을 이루었습니다. 그러나 생성된 많은 이미지들은 여전히 아티팩트/비현실성, 텍스트 설명과의 불일치, 그리고 낮은 미적 품질과 같은 문제를 겪고 있습니다. 대규모 언어 모델에 대한 인간 피드백을 활용한 강화 학습(RLHF)의 성공에 영감을 받아, 선행 연구들은 생성된 이미지에 대한 인간이 제공한 점수를 피드백으로 수집하고 보상 모델을 훈련시켜 T2I 생성을 개선했습니다. 본 논문에서는 (i) 텍스트와 불일치하거나 비현실적인 이미지 영역을 표시하고, (ii) 텍스트 프롬프트에서 이미지에 잘못 표현되거나 누락된 단어를 주석 처리함으로써 피드백 신호를 풍부하게 합니다. 우리는 18,000개의 생성된 이미지에 대해 이러한 풍부한 인간 피드백을 수집하고, 이를 자동으로 예측하기 위해 다중 모드 트랜스포머를 훈련시켰습니다. 예측된 풍부한 인간 피드백은 이미지 생성을 개선하는 데 활용될 수 있음을 보여줍니다. 예를 들어, 고품질의 훈련 데이터를 선택하여 생성 모델을 미세 조정하고 개선하거나, 예측된 히트맵을 사용하여 문제가 있는 영역을 인페인팅하는 마스크를 생성하는 방식으로 활용할 수 있습니다. 특히, 이러한 개선은 인간 피드백 데이터가 수집된 이미지를 생성하는 데 사용된 모델(Stable Diffusion 변종)을 넘어 다른 모델(Muse)에도 일반화됩니다.
English
Recent Text-to-Image (T2I) generation models such as Stable Diffusion and
Imagen have made significant progress in generating high-resolution images
based on text descriptions. However, many generated images still suffer from
issues such as artifacts/implausibility, misalignment with text descriptions,
and low aesthetic quality. Inspired by the success of Reinforcement Learning
with Human Feedback (RLHF) for large language models, prior works collected
human-provided scores as feedback on generated images and trained a reward
model to improve the T2I generation. In this paper, we enrich the feedback
signal by (i) marking image regions that are implausible or misaligned with the
text, and (ii) annotating which words in the text prompt are misrepresented or
missing on the image. We collect such rich human feedback on 18K generated
images and train a multimodal transformer to predict the rich feedback
automatically. We show that the predicted rich human feedback can be leveraged
to improve image generation, for example, by selecting high-quality training
data to finetune and improve the generative models, or by creating masks with
predicted heatmaps to inpaint the problematic regions. Notably, the
improvements generalize to models (Muse) beyond those used to generate the
images on which human feedback data were collected (Stable Diffusion variants).