YaART: Otra Tecnología Más de Renderizado ART
YaART: Yet Another ART Rendering Technology
April 8, 2024
Autores: Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov
cs.AI
Resumen
En el campo de rápida evolución de los modelos generativos, el desarrollo de sistemas eficientes y de alta fidelidad para la generación de imágenes a partir de texto mediante difusión representa una frontera significativa. Este estudio presenta YaART, un novedoso modelo de difusión en cascada para la generación de imágenes a partir de texto, de grado productivo y alineado con las preferencias humanas mediante Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF). Durante el desarrollo de YaART, nos enfocamos especialmente en las decisiones relacionadas con el tamaño del modelo y del conjunto de datos de entrenamiento, aspectos que no habían sido investigados sistemáticamente en modelos de difusión en cascada para la generación de imágenes a partir de texto. En particular, analizamos de manera exhaustiva cómo estas elecciones afectan tanto la eficiencia del proceso de entrenamiento como la calidad de las imágenes generadas, aspectos de gran importancia en la práctica. Además, demostramos que los modelos entrenados con conjuntos de datos más pequeños pero de mayor calidad pueden competir exitosamente con aquellos entrenados con conjuntos de datos más grandes, estableciendo un escenario más eficiente para el entrenamiento de modelos de difusión. Desde la perspectiva de la calidad, YaART es consistentemente preferido por los usuarios sobre muchos modelos existentes de última generación.
English
In the rapidly progressing field of generative models, the development of
efficient and high-fidelity text-to-image diffusion systems represents a
significant frontier. This study introduces YaART, a novel production-grade
text-to-image cascaded diffusion model aligned to human preferences using
Reinforcement Learning from Human Feedback (RLHF). During the development of
YaART, we especially focus on the choices of the model and training dataset
sizes, the aspects that were not systematically investigated for text-to-image
cascaded diffusion models before. In particular, we comprehensively analyze how
these choices affect both the efficiency of the training process and the
quality of the generated images, which are highly important in practice.
Furthermore, we demonstrate that models trained on smaller datasets of
higher-quality images can successfully compete with those trained on larger
datasets, establishing a more efficient scenario of diffusion models training.
From the quality perspective, YaART is consistently preferred by users over
many existing state-of-the-art models.Summary
AI-Generated Summary