Alchemist: Trasformare i dati pubblici di testo-immagine in oro generativo
Alchemist: Turning Public Text-to-Image Data into Generative Gold
May 25, 2025
Autori: Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin
cs.AI
Abstract
Il pre-addestramento fornisce ai modelli text-to-image (T2I) una conoscenza ampia del mondo, ma questo da solo spesso non è sufficiente per raggiungere un'elevata qualità estetica e un buon allineamento. Di conseguenza, il fine-tuning supervisionato (SFT) è cruciale per un ulteriore affinamento. Tuttavia, la sua efficacia dipende fortemente dalla qualità del dataset di fine-tuning. Gli attuali dataset pubblici di SFT spesso si concentrano su domini ristretti (ad esempio, anime o stili artistici specifici), e la creazione di dataset SFT di alta qualità e a scopo generale rimane una sfida significativa. I metodi attuali di selezione sono spesso costosi e faticano a identificare campioni veramente significativi. Questa sfida è ulteriormente complicata dalla scarsità di dataset pubblici a scopo generale, poiché i modelli leader si basano spesso su grandi quantità di dati interni, proprietari e scarsamente documentati, ostacolando così il progresso della ricerca in ambito più ampio. Questo articolo introduce una nuova metodologia per creare dataset SFT a scopo generale, sfruttando un modello generativo pre-addestrato come stimatore di campioni di addestramento ad alto impatto. Applichiamo questa metodologia per costruire e rilasciare Alchemist, un dataset SFT compatto (3.350 campioni) ma altamente efficace. Gli esperimenti dimostrano che Alchemist migliora sostanzialmente la qualità generativa di cinque modelli T2I pubblici, preservando al contempo la diversità e lo stile. Inoltre, rilasciamo pubblicamente i pesi dei modelli fine-tuned.
English
Pre-training equips text-to-image (T2I) models with broad world knowledge,
but this alone is often insufficient to achieve high aesthetic quality and
alignment. Consequently, supervised fine-tuning (SFT) is crucial for further
refinement. However, its effectiveness highly depends on the quality of the
fine-tuning dataset. Existing public SFT datasets frequently target narrow
domains (e.g., anime or specific art styles), and the creation of high-quality,
general-purpose SFT datasets remains a significant challenge. Current curation
methods are often costly and struggle to identify truly impactful samples. This
challenge is further complicated by the scarcity of public general-purpose
datasets, as leading models often rely on large, proprietary, and poorly
documented internal data, hindering broader research progress. This paper
introduces a novel methodology for creating general-purpose SFT datasets by
leveraging a pre-trained generative model as an estimator of high-impact
training samples. We apply this methodology to construct and release Alchemist,
a compact (3,350 samples) yet highly effective SFT dataset. Experiments
demonstrate that Alchemist substantially improves the generative quality of
five public T2I models while preserving diversity and style. Additionally, we
release the fine-tuned models' weights to the public.