Illustrious: Ein offenes fortgeschrittenes Illustrationsmodell
Illustrious: an Open Advanced Illustration Model
September 30, 2024
Autoren: Sang Hyun Park, Jun Young Koh, Junha Lee, Joy Song, Dongha Kim, Hoyeon Moon, Hyunju Lee, Min Song
cs.AI
Zusammenfassung
In dieser Arbeit teilen wir die Erkenntnisse zur Erreichung einer erstklassigen Qualität in unserem Text-zu-Bild Anime-Bild-generierenden Modell namens Illustrious. Um eine hohe Auflösung, einen dynamischen Farbbereich und eine hohe Wiederherstellungsfähigkeit zu erreichen, konzentrieren wir uns auf drei wesentliche Ansätze zur Modellverbesserung. Zunächst gehen wir auf die Bedeutung der Batch-Größe und der Dropout-Kontrolle ein, die ein schnelleres Lernen von steuerbaren Token-basierten Konzeptaktivierungen ermöglichen. Zweitens erhöhen wir die Trainingsauflösung von Bildern, was die genaue Darstellung der Charakteranatomie in viel höherer Auflösung beeinflusst und die Generationsfähigkeit auf über 20MP mit geeigneten Methoden erweitert. Schließlich schlagen wir die verfeinerten mehrstufigen Bildunterschriften vor, die alle Tags und verschiedene natürlichsprachliche Bildunterschriften abdecken, als entscheidenden Faktor für die Modellentwicklung. Durch umfangreiche Analysen und Experimente zeigt Illustrious eine erstklassige Leistung im Bereich des Animationsstils und übertrifft weit verbreitete Modelle in Illustrationsbereichen, was eine einfachere Anpassung und Personalisierung mit der Natur des Open Source vorantreibt. Wir planen, die aktualisierte Illustrious-Modellreihe sukzessive öffentlich freizugeben sowie nachhaltige Pläne für Verbesserungen.
English
In this work, we share the insights for achieving state-of-the-art quality in
our text-to-image anime image generative model, called Illustrious. To achieve
high resolution, dynamic color range images, and high restoration ability, we
focus on three critical approaches for model improvement. First, we delve into
the significance of the batch size and dropout control, which enables faster
learning of controllable token based concept activations. Second, we increase
the training resolution of images, affecting the accurate depiction of
character anatomy in much higher resolution, extending its generation
capability over 20MP with proper methods. Finally, we propose the refined
multi-level captions, covering all tags and various natural language captions
as a critical factor for model development. Through extensive analysis and
experiments, Illustrious demonstrates state-of-the-art performance in terms of
animation style, outperforming widely-used models in illustration domains,
propelling easier customization and personalization with nature of open source.
We plan to publicly release updated Illustrious model series sequentially as
well as sustainable plans for improvements.Summary
AI-Generated Summary