ChatPaper.aiChatPaper

YaART: Mais uma Tecnologia de Renderização ART

YaART: Yet Another ART Rendering Technology

April 8, 2024
Autores: Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov
cs.AI

Resumo

No campo em rápida evolução dos modelos generativos, o desenvolvimento de sistemas eficientes e de alta fidelidade para geração de imagens a partir de texto representa uma fronteira significativa. Este estudo apresenta o YaART, um novo modelo de difusão em cascata de texto para imagem de nível de produção, alinhado às preferências humanas por meio de Aprendizado por Reforço com Feedback Humano (RLHF). Durante o desenvolvimento do YaART, focamos especialmente nas escolhas do tamanho do modelo e do conjunto de dados de treinamento, aspectos que não haviam sido sistematicamente investigados em modelos de difusão em cascata de texto para imagem. Em particular, analisamos de forma abrangente como essas escolhas afetam tanto a eficiência do processo de treinamento quanto a qualidade das imagens geradas, fatores de extrema importância na prática. Além disso, demonstramos que modelos treinados em conjuntos de dados menores, porém de maior qualidade, podem competir com sucesso com aqueles treinados em conjuntos de dados maiores, estabelecendo um cenário mais eficiente para o treinamento de modelos de difusão. Do ponto de vista da qualidade, o YaART é consistentemente preferido pelos usuários em comparação com muitos modelos state-of-the-art existentes.
English
In the rapidly progressing field of generative models, the development of efficient and high-fidelity text-to-image diffusion systems represents a significant frontier. This study introduces YaART, a novel production-grade text-to-image cascaded diffusion model aligned to human preferences using Reinforcement Learning from Human Feedback (RLHF). During the development of YaART, we especially focus on the choices of the model and training dataset sizes, the aspects that were not systematically investigated for text-to-image cascaded diffusion models before. In particular, we comprehensively analyze how these choices affect both the efficiency of the training process and the quality of the generated images, which are highly important in practice. Furthermore, we demonstrate that models trained on smaller datasets of higher-quality images can successfully compete with those trained on larger datasets, establishing a more efficient scenario of diffusion models training. From the quality perspective, YaART is consistently preferred by users over many existing state-of-the-art models.
PDF180December 15, 2024