ChatPaper.aiChatPaper

著名: オープンな高度なイラストモデル

Illustrious: an Open Advanced Illustration Model

September 30, 2024
著者: Sang Hyun Park, Jun Young Koh, Junha Lee, Joy Song, Dongha Kim, Hoyeon Moon, Hyunju Lee, Min Song
cs.AI

要旨

この研究では、当社のテキストから画像を生成するアニメ画像生成モデル「Illustrious」において、最先端の品質を実現するための洞察を共有します。高解像度、ダイナミックなカラー範囲の画像、高い復元能力を実現するために、モデルの改善に向けて3つの重要なアプローチに焦点を当てています。まず、バッチサイズとドロップアウト制御の重要性に深く踏み込み、コントロール可能なトークンベースの概念活性化の高速学習を可能にしています。次に、画像のトレーニング解像度を向上させ、キャラクターの解剖学的描写をより高い解像度で正確に行い、適切な手法で20MP以上の生成能力を拡張しています。最後に、洗練されたマルチレベルキャプションを提案し、すべてのタグとさまざまな自然言語キャプションをカバーすることをモデル開発の重要な要素としています。徹底的な分析と実験を通じて、「Illustrious」はアニメーションスタイルにおいて最先端のパフォーマンスを示し、イラストレーション分野で広く使用されているモデルを凌駕し、オープンソースの性質による簡単なカスタマイズと個人化を促進しています。我々は、更新された「Illustrious」モデルシリーズと改善のための持続可能な計画を順次公開する予定です。
English
In this work, we share the insights for achieving state-of-the-art quality in our text-to-image anime image generative model, called Illustrious. To achieve high resolution, dynamic color range images, and high restoration ability, we focus on three critical approaches for model improvement. First, we delve into the significance of the batch size and dropout control, which enables faster learning of controllable token based concept activations. Second, we increase the training resolution of images, affecting the accurate depiction of character anatomy in much higher resolution, extending its generation capability over 20MP with proper methods. Finally, we propose the refined multi-level captions, covering all tags and various natural language captions as a critical factor for model development. Through extensive analysis and experiments, Illustrious demonstrates state-of-the-art performance in terms of animation style, outperforming widely-used models in illustration domains, propelling easier customization and personalization with nature of open source. We plan to publicly release updated Illustrious model series sequentially as well as sustainable plans for improvements.

Summary

AI-Generated Summary

PDF163November 13, 2024