YaART: もう一つのARTレンダリング技術
YaART: Yet Another ART Rendering Technology
April 8, 2024
著者: Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov
cs.AI
要旨
急速に進化する生成モデルの分野において、効率的かつ高忠実度のテキストから画像への拡散システムの開発は重要なフロンティアとなっています。本研究では、人間の嗜好に合わせたReinforcement Learning from Human Feedback(RLHF)を用いた、新たなプロダクショングレードのテキストから画像へのカスケード拡散モデルであるYaARTを紹介します。YaARTの開発において、我々は特にモデルとトレーニングデータセットのサイズの選択に焦点を当てました。これらは、テキストから画像へのカスケード拡散モデルにおいてこれまで体系的に調査されていなかった側面です。特に、これらの選択がトレーニングプロセスの効率性と生成される画像の品質にどのように影響するかを包括的に分析しました。これは実用上非常に重要な要素です。さらに、高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルと競合できることを実証し、拡散モデルのトレーニングにおけるより効率的なシナリオを確立しました。品質の観点から、YaARTは多くの既存の最先端モデルよりも一貫してユーザーに好まれる結果を示しています。
English
In the rapidly progressing field of generative models, the development of
efficient and high-fidelity text-to-image diffusion systems represents a
significant frontier. This study introduces YaART, a novel production-grade
text-to-image cascaded diffusion model aligned to human preferences using
Reinforcement Learning from Human Feedback (RLHF). During the development of
YaART, we especially focus on the choices of the model and training dataset
sizes, the aspects that were not systematically investigated for text-to-image
cascaded diffusion models before. In particular, we comprehensively analyze how
these choices affect both the efficiency of the training process and the
quality of the generated images, which are highly important in practice.
Furthermore, we demonstrate that models trained on smaller datasets of
higher-quality images can successfully compete with those trained on larger
datasets, establishing a more efficient scenario of diffusion models training.
From the quality perspective, YaART is consistently preferred by users over
many existing state-of-the-art models.Summary
AI-Generated Summary