YaART: Un'Altra Tecnologia di Rendering ART
YaART: Yet Another ART Rendering Technology
April 8, 2024
Autori: Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov
cs.AI
Abstract
Nel campo in rapida evoluzione dei modelli generativi, lo sviluppo di sistemi di diffusione testo-immagine efficienti e ad alta fedeltà rappresenta una frontiera significativa. Questo studio introduce YaART, un innovativo modello di diffusione a cascata testo-immagine di livello produttivo, allineato alle preferenze umane attraverso l'apprendimento per rinforzo basato sul feedback umano (RLHF). Durante lo sviluppo di YaART, ci siamo concentrati in particolare sulla scelta delle dimensioni del modello e del dataset di addestramento, aspetti che non erano stati precedentemente investigati in modo sistematico per i modelli di diffusione a cascata testo-immagine. In particolare, analizziamo in modo approfondito come queste scelte influenzino sia l'efficienza del processo di addestramento che la qualità delle immagini generate, aspetti di grande importanza pratica. Inoltre, dimostriamo che i modelli addestrati su dataset più piccoli di immagini di qualità superiore possono competere con successo con quelli addestrati su dataset più grandi, stabilendo uno scenario più efficiente per l'addestramento dei modelli di diffusione. Dal punto di vista della qualità, YaART è costantemente preferito dagli utenti rispetto a molti modelli all'avanguardia esistenti.
English
In the rapidly progressing field of generative models, the development of
efficient and high-fidelity text-to-image diffusion systems represents a
significant frontier. This study introduces YaART, a novel production-grade
text-to-image cascaded diffusion model aligned to human preferences using
Reinforcement Learning from Human Feedback (RLHF). During the development of
YaART, we especially focus on the choices of the model and training dataset
sizes, the aspects that were not systematically investigated for text-to-image
cascaded diffusion models before. In particular, we comprehensively analyze how
these choices affect both the efficiency of the training process and the
quality of the generated images, which are highly important in practice.
Furthermore, we demonstrate that models trained on smaller datasets of
higher-quality images can successfully compete with those trained on larger
datasets, establishing a more efficient scenario of diffusion models training.
From the quality perspective, YaART is consistently preferred by users over
many existing state-of-the-art models.