Illustrious: Ein offenes fortgeschrittenes Illustrationsmodell

papers.abstract

In dieser Arbeit teilen wir die Erkenntnisse zur Erreichung einer erstklassigen Qualität in unserem Text-zu-Bild Anime-Bild-generierenden Modell namens Illustrious. Um eine hohe Auflösung, einen dynamischen Farbbereich und eine hohe Wiederherstellungsfähigkeit zu erreichen, konzentrieren wir uns auf drei wesentliche Ansätze zur Modellverbesserung. Zunächst gehen wir auf die Bedeutung der Batch-Größe und der Dropout-Kontrolle ein, die ein schnelleres Lernen von steuerbaren Token-basierten Konzeptaktivierungen ermöglichen. Zweitens erhöhen wir die Trainingsauflösung von Bildern, was die genaue Darstellung der Charakteranatomie in viel höherer Auflösung beeinflusst und die Generationsfähigkeit auf über 20MP mit geeigneten Methoden erweitert. Schließlich schlagen wir die verfeinerten mehrstufigen Bildunterschriften vor, die alle Tags und verschiedene natürlichsprachliche Bildunterschriften abdecken, als entscheidenden Faktor für die Modellentwicklung. Durch umfangreiche Analysen und Experimente zeigt Illustrious eine erstklassige Leistung im Bereich des Animationsstils und übertrifft weit verbreitete Modelle in Illustrationsbereichen, was eine einfachere Anpassung und Personalisierung mit der Natur des Open Source vorantreibt. Wir planen, die aktualisierte Illustrious-Modellreihe sukzessive öffentlich freizugeben sowie nachhaltige Pläne für Verbesserungen.

English

In this work, we share the insights for achieving state-of-the-art quality in our text-to-image anime image generative model, called Illustrious. To achieve high resolution, dynamic color range images, and high restoration ability, we focus on three critical approaches for model improvement. First, we delve into the significance of the batch size and dropout control, which enables faster learning of controllable token based concept activations. Second, we increase the training resolution of images, affecting the accurate depiction of character anatomy in much higher resolution, extending its generation capability over 20MP with proper methods. Finally, we propose the refined multi-level captions, covering all tags and various natural language captions as a critical factor for model development. Through extensive analysis and experiments, Illustrious demonstrates state-of-the-art performance in terms of animation style, outperforming widely-used models in illustration domains, propelling easier customization and personalization with nature of open source. We plan to publicly release updated Illustrious model series sequentially as well as sustainable plans for improvements.

Illustrious: Ein offenes fortgeschrittenes Illustrationsmodell

Illustrious: an Open Advanced Illustration Model

papers.abstract

Support