ChatPaper.aiChatPaper

YaART: Otra Tecnología Más de Renderizado ART

YaART: Yet Another ART Rendering Technology

April 8, 2024
Autores: Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov
cs.AI

Resumen

En el campo de rápida evolución de los modelos generativos, el desarrollo de sistemas eficientes y de alta fidelidad para la generación de imágenes a partir de texto mediante difusión representa una frontera significativa. Este estudio presenta YaART, un novedoso modelo de difusión en cascada para la generación de imágenes a partir de texto, de grado productivo y alineado con las preferencias humanas mediante Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF). Durante el desarrollo de YaART, nos enfocamos especialmente en las decisiones relacionadas con el tamaño del modelo y del conjunto de datos de entrenamiento, aspectos que no habían sido investigados sistemáticamente en modelos de difusión en cascada para la generación de imágenes a partir de texto. En particular, analizamos de manera exhaustiva cómo estas elecciones afectan tanto la eficiencia del proceso de entrenamiento como la calidad de las imágenes generadas, aspectos de gran importancia en la práctica. Además, demostramos que los modelos entrenados con conjuntos de datos más pequeños pero de mayor calidad pueden competir exitosamente con aquellos entrenados con conjuntos de datos más grandes, estableciendo un escenario más eficiente para el entrenamiento de modelos de difusión. Desde la perspectiva de la calidad, YaART es consistentemente preferido por los usuarios sobre muchos modelos existentes de última generación.
English
In the rapidly progressing field of generative models, the development of efficient and high-fidelity text-to-image diffusion systems represents a significant frontier. This study introduces YaART, a novel production-grade text-to-image cascaded diffusion model aligned to human preferences using Reinforcement Learning from Human Feedback (RLHF). During the development of YaART, we especially focus on the choices of the model and training dataset sizes, the aspects that were not systematically investigated for text-to-image cascaded diffusion models before. In particular, we comprehensively analyze how these choices affect both the efficiency of the training process and the quality of the generated images, which are highly important in practice. Furthermore, we demonstrate that models trained on smaller datasets of higher-quality images can successfully compete with those trained on larger datasets, establishing a more efficient scenario of diffusion models training. From the quality perspective, YaART is consistently preferred by users over many existing state-of-the-art models.

Summary

AI-Generated Summary

PDF170December 15, 2024