ChatPaper.aiChatPaper

YaART: Noch eine andere ART-Rendering-Technologie

YaART: Yet Another ART Rendering Technology

April 8, 2024
Autoren: Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov
cs.AI

Zusammenfassung

In dem sich schnell entwickelnden Bereich der generativen Modelle stellt die Entwicklung effizienter und hochwertiger Text-zu-Bild-Diffusionsysteme eine bedeutende Grenze dar. Diese Studie führt YaART ein, ein neuartiges text-zu-Bild-kaskadiertes Diffusionsmodell für die Produktion, das auf menschliche Präferenzen ausgerichtet ist und Reinforcement Learning aus menschlichem Feedback (RLHF) verwendet. Während der Entwicklung von YaART konzentrieren wir uns insbesondere auf die Auswahl der Modell- und Trainingsdatensatzgrößen, Aspekte, die zuvor nicht systematisch für text-zu-Bild-kaskadierte Diffusionsmodelle untersucht wurden. Insbesondere analysieren wir umfassend, wie sich diese Entscheidungen sowohl auf die Effizienz des Schulungsprozesses als auch auf die Qualität der generierten Bilder auswirken, die in der Praxis von großer Bedeutung sind. Darüber hinaus zeigen wir, dass Modelle, die auf kleineren Datensätzen von hochwertigen Bildern trainiert wurden, erfolgreich mit denen konkurrieren können, die auf größeren Datensätzen trainiert wurden, und damit ein effizienteres Szenario für das Training von Diffusionsmodellen schaffen. Aus Qualitätsgründen wird YaART von Benutzern durchgehend gegenüber vielen bestehenden State-of-the-Art-Modellen bevorzugt.
English
In the rapidly progressing field of generative models, the development of efficient and high-fidelity text-to-image diffusion systems represents a significant frontier. This study introduces YaART, a novel production-grade text-to-image cascaded diffusion model aligned to human preferences using Reinforcement Learning from Human Feedback (RLHF). During the development of YaART, we especially focus on the choices of the model and training dataset sizes, the aspects that were not systematically investigated for text-to-image cascaded diffusion models before. In particular, we comprehensively analyze how these choices affect both the efficiency of the training process and the quality of the generated images, which are highly important in practice. Furthermore, we demonstrate that models trained on smaller datasets of higher-quality images can successfully compete with those trained on larger datasets, establishing a more efficient scenario of diffusion models training. From the quality perspective, YaART is consistently preferred by users over many existing state-of-the-art models.

Summary

AI-Generated Summary

PDF170December 15, 2024