Alchemist: Openbare tekst-naar-beelddata omzetten in generatief goud
Alchemist: Turning Public Text-to-Image Data into Generative Gold
May 25, 2025
Auteurs: Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin
cs.AI
Samenvatting
Pre-training voorziet tekst-naar-beeld (T2I) modellen van brede wereldkennis, maar dit alleen is vaak onvoldoende om hoge esthetische kwaliteit en uitlijning te bereiken. Daarom is supervised fine-tuning (SFT) cruciaal voor verdere verfijning. De effectiviteit ervan hangt echter sterk af van de kwaliteit van de fine-tuning dataset. Bestaande openbare SFT-datasets richten zich vaak op smalle domeinen (bijv. anime of specifieke kunststijlen), en het creëren van hoogwaardige, algemene SFT-datasets blijft een aanzienlijke uitdaging. Huidige curatiemethoden zijn vaak kostbaar en hebben moeite om echt impactvolle samples te identificeren. Deze uitdaging wordt verder bemoeilijkt door de schaarste aan openbare, algemene datasets, aangezien toonaangevende modellen vaak vertrouwen op grote, propriëtaire en slecht gedocumenteerde interne data, wat breder onderzoeksvooruitgang belemmert. Dit artikel introduceert een nieuwe methodologie voor het creëren van algemene SFT-datasets door gebruik te maken van een vooraf getraind generatief model als schatter van hoogwaardige trainingssamples. We passen deze methodologie toe om Alchemist te construeren en vrij te geven, een compacte (3.350 samples) maar zeer effectieve SFT-dataset. Experimenten tonen aan dat Alchemist de generatieve kwaliteit van vijf openbare T2I-modellen aanzienlijk verbetert, terwijl diversiteit en stijl behouden blijven. Daarnaast geven we de gewichten van de fine-tuned modellen vrij aan het publiek.
English
Pre-training equips text-to-image (T2I) models with broad world knowledge,
but this alone is often insufficient to achieve high aesthetic quality and
alignment. Consequently, supervised fine-tuning (SFT) is crucial for further
refinement. However, its effectiveness highly depends on the quality of the
fine-tuning dataset. Existing public SFT datasets frequently target narrow
domains (e.g., anime or specific art styles), and the creation of high-quality,
general-purpose SFT datasets remains a significant challenge. Current curation
methods are often costly and struggle to identify truly impactful samples. This
challenge is further complicated by the scarcity of public general-purpose
datasets, as leading models often rely on large, proprietary, and poorly
documented internal data, hindering broader research progress. This paper
introduces a novel methodology for creating general-purpose SFT datasets by
leveraging a pre-trained generative model as an estimator of high-impact
training samples. We apply this methodology to construct and release Alchemist,
a compact (3,350 samples) yet highly effective SFT dataset. Experiments
demonstrate that Alchemist substantially improves the generative quality of
five public T2I models while preserving diversity and style. Additionally, we
release the fine-tuned models' weights to the public.