ChatPaper.aiChatPaper

YaART : Encore une autre technologie de rendu ART

YaART: Yet Another ART Rendering Technology

April 8, 2024
Auteurs: Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov
cs.AI

Résumé

Dans le domaine en pleine expansion des modèles génératifs, le développement de systèmes de diffusion texte-image efficaces et à haute fidélité représente une frontière majeure. Cette étude présente YaART, un nouveau modèle de diffusion en cascade de production, aligné sur les préférences humaines grâce à l'apprentissage par renforcement à partir de retours humains (RLHF). Lors du développement de YaART, nous nous sommes particulièrement concentrés sur les choix relatifs à la taille du modèle et des ensembles de données d'entraînement, des aspects qui n'avaient pas été systématiquement explorés auparavant pour les modèles de diffusion en cascade texte-image. Nous analysons en détail comment ces choix influencent à la fois l'efficacité du processus d'entraînement et la qualité des images générées, des facteurs cruciaux en pratique. De plus, nous démontrons que les modèles entraînés sur des ensembles de données plus petits mais de meilleure qualité peuvent rivaliser avec ceux entraînés sur des ensembles plus volumineux, établissant ainsi un scénario plus efficace pour l'entraînement des modèles de diffusion. En termes de qualité, YaART est systématiquement préféré par les utilisateurs par rapport à de nombreux modèles de pointe existants.
English
In the rapidly progressing field of generative models, the development of efficient and high-fidelity text-to-image diffusion systems represents a significant frontier. This study introduces YaART, a novel production-grade text-to-image cascaded diffusion model aligned to human preferences using Reinforcement Learning from Human Feedback (RLHF). During the development of YaART, we especially focus on the choices of the model and training dataset sizes, the aspects that were not systematically investigated for text-to-image cascaded diffusion models before. In particular, we comprehensively analyze how these choices affect both the efficiency of the training process and the quality of the generated images, which are highly important in practice. Furthermore, we demonstrate that models trained on smaller datasets of higher-quality images can successfully compete with those trained on larger datasets, establishing a more efficient scenario of diffusion models training. From the quality perspective, YaART is consistently preferred by users over many existing state-of-the-art models.

Summary

AI-Generated Summary

PDF170December 15, 2024