Umfangreiches menschliches Feedback für die Text-zu-Bild-Generierung
Rich Human Feedback for Text-to-Image Generation
December 15, 2023
Autoren: Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katie Collins, Yiwen Luo, Yang Li, Kai J Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam
cs.AI
Zusammenfassung
Aktuelle Text-zu-Bild (T2I)-Generierungsmodelle wie Stable Diffusion und Imagen haben bedeutende Fortschritte bei der Erzeugung hochauflösender Bilder auf der Grundlage von Textbeschreibungen erzielt. Dennoch weisen viele generierte Bilder weiterhin Probleme wie Artefakte/Unplausibilitäten, Fehlausrichtungen mit den Textbeschreibungen und geringe ästhetische Qualität auf. Inspiriert vom Erfolg von Reinforcement Learning mit menschlichem Feedback (RLHF) für große Sprachmodelle, haben frühere Arbeiten menschlich bereitgestellte Bewertungen als Feedback zu generierten Bildern gesammelt und ein Belohnungsmodell trainiert, um die T2I-Generierung zu verbessern. In diesem Artikel erweitern wir das Feedback-Signal, indem wir (i) Bildregionen markieren, die unplausibel oder fehlausgerichtet mit dem Text sind, und (ii) annotieren, welche Wörter im Textprompt falsch dargestellt oder im Bild fehlen. Wir sammeln solch umfangreiches menschliches Feedback für 18.000 generierte Bilder und trainieren einen multimodalen Transformer, um das umfangreiche Feedback automatisch vorherzusagen. Wir zeigen, dass das vorhergesagte umfangreiche menschliche Feedback genutzt werden kann, um die Bildgenerierung zu verbessern, beispielsweise durch die Auswahl hochwertiger Trainingsdaten zur Feinabstimmung und Verbesserung der generativen Modelle oder durch die Erstellung von Masken mit vorhergesagten Heatmaps, um problematische Regionen zu inpainten. Bemerkenswerterweise verallgemeinern sich die Verbesserungen auf Modelle (Muse), die über diejenigen hinausgehen, die zur Generierung der Bilder verwendet wurden, für die menschliches Feedback gesammelt wurde (Stable Diffusion-Varianten).
English
Recent Text-to-Image (T2I) generation models such as Stable Diffusion and
Imagen have made significant progress in generating high-resolution images
based on text descriptions. However, many generated images still suffer from
issues such as artifacts/implausibility, misalignment with text descriptions,
and low aesthetic quality. Inspired by the success of Reinforcement Learning
with Human Feedback (RLHF) for large language models, prior works collected
human-provided scores as feedback on generated images and trained a reward
model to improve the T2I generation. In this paper, we enrich the feedback
signal by (i) marking image regions that are implausible or misaligned with the
text, and (ii) annotating which words in the text prompt are misrepresented or
missing on the image. We collect such rich human feedback on 18K generated
images and train a multimodal transformer to predict the rich feedback
automatically. We show that the predicted rich human feedback can be leveraged
to improve image generation, for example, by selecting high-quality training
data to finetune and improve the generative models, or by creating masks with
predicted heatmaps to inpaint the problematic regions. Notably, the
improvements generalize to models (Muse) beyond those used to generate the
images on which human feedback data were collected (Stable Diffusion variants).