ChatPaper.aiChatPaper

YaART: Nog een ART Rendering Technologie

YaART: Yet Another ART Rendering Technology

April 8, 2024
Auteurs: Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov
cs.AI

Samenvatting

In het snel voortschrijdende veld van generatieve modellen vertegenwoordigt de ontwikkeling van efficiënte en hoogwaardige tekst-naar-beeld diffusesystemen een belangrijke grens. Deze studie introduceert YaART, een nieuw productieklasse tekst-naar-beeld gecascadeerd diffusiemodel dat is afgestemd op menselijke voorkeuren met behulp van Reinforcement Learning from Human Feedback (RLHF). Tijdens de ontwikkeling van YaART hebben we ons vooral gericht op de keuzes van de grootte van het model en de trainingsdataset, aspecten die voorheen niet systematisch zijn onderzocht voor tekst-naar-beeld gecascadeerde diffusiemodellen. In het bijzonder analyseren we uitgebreid hoe deze keuzes zowel de efficiëntie van het trainingsproces als de kwaliteit van de gegenereerde beelden beïnvloeden, wat in de praktijk van groot belang is. Bovendien tonen we aan dat modellen die zijn getraind op kleinere datasets van hogere kwaliteit beelden succesvol kunnen concurreren met modellen die zijn getraind op grotere datasets, wat een efficiënter scenario voor de training van diffusiemodellen vaststelt. Vanuit kwaliteitsoogpunt wordt YaART consistent door gebruikers verkozen boven veel bestaande state-of-the-art modellen.
English
In the rapidly progressing field of generative models, the development of efficient and high-fidelity text-to-image diffusion systems represents a significant frontier. This study introduces YaART, a novel production-grade text-to-image cascaded diffusion model aligned to human preferences using Reinforcement Learning from Human Feedback (RLHF). During the development of YaART, we especially focus on the choices of the model and training dataset sizes, the aspects that were not systematically investigated for text-to-image cascaded diffusion models before. In particular, we comprehensively analyze how these choices affect both the efficiency of the training process and the quality of the generated images, which are highly important in practice. Furthermore, we demonstrate that models trained on smaller datasets of higher-quality images can successfully compete with those trained on larger datasets, establishing a more efficient scenario of diffusion models training. From the quality perspective, YaART is consistently preferred by users over many existing state-of-the-art models.
PDF180December 15, 2024