Alchemist: Openbare tekst-naar-beelddata omzetten in generatief goud

Samenvatting

Pre-training voorziet tekst-naar-beeld (T2I) modellen van brede wereldkennis, maar dit alleen is vaak onvoldoende om hoge esthetische kwaliteit en uitlijning te bereiken. Daarom is supervised fine-tuning (SFT) cruciaal voor verdere verfijning. De effectiviteit ervan hangt echter sterk af van de kwaliteit van de fine-tuning dataset. Bestaande openbare SFT-datasets richten zich vaak op smalle domeinen (bijv. anime of specifieke kunststijlen), en het creëren van hoogwaardige, algemene SFT-datasets blijft een aanzienlijke uitdaging. Huidige curatiemethoden zijn vaak kostbaar en hebben moeite om echt impactvolle samples te identificeren. Deze uitdaging wordt verder bemoeilijkt door de schaarste aan openbare, algemene datasets, aangezien toonaangevende modellen vaak vertrouwen op grote, propriëtaire en slecht gedocumenteerde interne data, wat breder onderzoeksvooruitgang belemmert. Dit artikel introduceert een nieuwe methodologie voor het creëren van algemene SFT-datasets door gebruik te maken van een vooraf getraind generatief model als schatter van hoogwaardige trainingssamples. We passen deze methodologie toe om Alchemist te construeren en vrij te geven, een compacte (3.350 samples) maar zeer effectieve SFT-dataset. Experimenten tonen aan dat Alchemist de generatieve kwaliteit van vijf openbare T2I-modellen aanzienlijk verbetert, terwijl diversiteit en stijl behouden blijven. Daarnaast geven we de gewichten van de fine-tuned modellen vrij aan het publiek.

English

Pre-training equips text-to-image (T2I) models with broad world knowledge, but this alone is often insufficient to achieve high aesthetic quality and alignment. Consequently, supervised fine-tuning (SFT) is crucial for further refinement. However, its effectiveness highly depends on the quality of the fine-tuning dataset. Existing public SFT datasets frequently target narrow domains (e.g., anime or specific art styles), and the creation of high-quality, general-purpose SFT datasets remains a significant challenge. Current curation methods are often costly and struggle to identify truly impactful samples. This challenge is further complicated by the scarcity of public general-purpose datasets, as leading models often rely on large, proprietary, and poorly documented internal data, hindering broader research progress. This paper introduces a novel methodology for creating general-purpose SFT datasets by leveraging a pre-trained generative model as an estimator of high-impact training samples. We apply this methodology to construct and release Alchemist, a compact (3,350 samples) yet highly effective SFT dataset. Experiments demonstrate that Alchemist substantially improves the generative quality of five public T2I models while preserving diversity and style. Additionally, we release the fine-tuned models' weights to the public.

Alchemist: Openbare tekst-naar-beelddata omzetten in generatief goud

Alchemist: Turning Public Text-to-Image Data into Generative Gold

Samenvatting

Support