ChatPaper.aiChatPaper

Alchemist: Öffentliche Text-zu-Bild-Daten in generatives Gold verwandeln

Alchemist: Turning Public Text-to-Image Data into Generative Gold

May 25, 2025
Autoren: Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin
cs.AI

Zusammenfassung

Das Pre-Training stattet Text-zu-Bild (T2I)-Modelle mit umfangreichem Weltwissen aus, doch dies allein reicht oft nicht aus, um eine hohe ästhetische Qualität und Ausrichtung zu erreichen. Folglich ist das überwachte Feinabstimmen (Supervised Fine-Tuning, SFT) entscheidend für die weitere Verfeinerung. Seine Wirksamkeit hängt jedoch stark von der Qualität des Feinabstimmungsdatensatzes ab. Bestehende öffentliche SFT-Datensätze zielen häufig auf enge Domänen ab (z. B. Anime oder spezifische Kunststile), und die Erstellung hochwertiger, allgemeiner SFT-Datensätze bleibt eine große Herausforderung. Aktuelle Kuratierungsmethoden sind oft kostspielig und haben Schwierigkeiten, wirklich einflussreiche Beispiele zu identifizieren. Diese Herausforderung wird zusätzlich durch die Knappheit öffentlicher, allgemeiner Datensätze erschwert, da führende Modelle häufig auf große, proprietäre und schlecht dokumentierte interne Daten angewiesen sind, was den breiteren Forschungsfortschritt behindert. Dieses Papier stellt eine neuartige Methodik zur Erstellung allgemeiner SFT-Datensätze vor, indem ein vortrainiertes generatives Modell als Schätzer für hochwirksame Trainingsbeispiele genutzt wird. Wir wenden diese Methodik an, um Alchemist zu konstruieren und zu veröffentlichen, einen kompakten (3.350 Beispiele) aber äußerst effektiven SFT-Datensatz. Experimente zeigen, dass Alchemist die generative Qualität von fünf öffentlichen T2I-Modellen erheblich verbessert, während Vielfalt und Stil erhalten bleiben. Zusätzlich veröffentlichen wir die Gewichte der feinabgestimmten Modelle für die Öffentlichkeit.
English
Pre-training equips text-to-image (T2I) models with broad world knowledge, but this alone is often insufficient to achieve high aesthetic quality and alignment. Consequently, supervised fine-tuning (SFT) is crucial for further refinement. However, its effectiveness highly depends on the quality of the fine-tuning dataset. Existing public SFT datasets frequently target narrow domains (e.g., anime or specific art styles), and the creation of high-quality, general-purpose SFT datasets remains a significant challenge. Current curation methods are often costly and struggle to identify truly impactful samples. This challenge is further complicated by the scarcity of public general-purpose datasets, as leading models often rely on large, proprietary, and poorly documented internal data, hindering broader research progress. This paper introduces a novel methodology for creating general-purpose SFT datasets by leveraging a pre-trained generative model as an estimator of high-impact training samples. We apply this methodology to construct and release Alchemist, a compact (3,350 samples) yet highly effective SFT dataset. Experiments demonstrate that Alchemist substantially improves the generative quality of five public T2I models while preserving diversity and style. Additionally, we release the fine-tuned models' weights to the public.

Summary

AI-Generated Summary

PDF682May 27, 2025