ChatPaper.aiChatPaper

YaART: Еще одна технология рендеринга ART

YaART: Yet Another ART Rendering Technology

April 8, 2024
Авторы: Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov
cs.AI

Аннотация

В быстро развивающейся области генеративных моделей разработка эффективных и высококачественных систем диффузии текста в изображение представляет собой значительную фронтальную задачу. В данном исследовании представлен YaART, новая модель каскадной диффузии текста в изображение, ориентированная на предпочтения человека и предназначенная для производства, использующая обучение с подкреплением на основе обратной связи от человека (RLHF). При разработке YaART мы особенно сосредотачиваемся на выборе размеров модели и обучающего набора данных, аспектов, которые ранее не были систематически исследованы для моделей каскадной диффузии текста в изображение. В частности, мы всесторонне анализируем, как эти выборы влияют как на эффективность процесса обучения, так и на качество созданных изображений, что является крайне важным на практике. Более того, мы демонстрируем, что модели, обученные на более маленьких наборах данных с изображениями более высокого качества, могут успешно конкурировать с теми, которые обучены на более крупных наборах данных, устанавливая более эффективный сценарий обучения моделей диффузии. С точки зрения качества, YaART последовательно предпочтительнее для пользователей по сравнению с многими существующими передовыми моделями.
English
In the rapidly progressing field of generative models, the development of efficient and high-fidelity text-to-image diffusion systems represents a significant frontier. This study introduces YaART, a novel production-grade text-to-image cascaded diffusion model aligned to human preferences using Reinforcement Learning from Human Feedback (RLHF). During the development of YaART, we especially focus on the choices of the model and training dataset sizes, the aspects that were not systematically investigated for text-to-image cascaded diffusion models before. In particular, we comprehensively analyze how these choices affect both the efficiency of the training process and the quality of the generated images, which are highly important in practice. Furthermore, we demonstrate that models trained on smaller datasets of higher-quality images can successfully compete with those trained on larger datasets, establishing a more efficient scenario of diffusion models training. From the quality perspective, YaART is consistently preferred by users over many existing state-of-the-art models.

Summary

AI-Generated Summary

PDF170December 15, 2024