ChatPaper.aiChatPaper

Alchemist: Trasformare i dati pubblici di testo-immagine in oro generativo

Alchemist: Turning Public Text-to-Image Data into Generative Gold

May 25, 2025
Autori: Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin
cs.AI

Abstract

Il pre-addestramento fornisce ai modelli text-to-image (T2I) una conoscenza ampia del mondo, ma questo da solo spesso non è sufficiente per raggiungere un'elevata qualità estetica e un buon allineamento. Di conseguenza, il fine-tuning supervisionato (SFT) è cruciale per un ulteriore affinamento. Tuttavia, la sua efficacia dipende fortemente dalla qualità del dataset di fine-tuning. Gli attuali dataset pubblici di SFT spesso si concentrano su domini ristretti (ad esempio, anime o stili artistici specifici), e la creazione di dataset SFT di alta qualità e a scopo generale rimane una sfida significativa. I metodi attuali di selezione sono spesso costosi e faticano a identificare campioni veramente significativi. Questa sfida è ulteriormente complicata dalla scarsità di dataset pubblici a scopo generale, poiché i modelli leader si basano spesso su grandi quantità di dati interni, proprietari e scarsamente documentati, ostacolando così il progresso della ricerca in ambito più ampio. Questo articolo introduce una nuova metodologia per creare dataset SFT a scopo generale, sfruttando un modello generativo pre-addestrato come stimatore di campioni di addestramento ad alto impatto. Applichiamo questa metodologia per costruire e rilasciare Alchemist, un dataset SFT compatto (3.350 campioni) ma altamente efficace. Gli esperimenti dimostrano che Alchemist migliora sostanzialmente la qualità generativa di cinque modelli T2I pubblici, preservando al contempo la diversità e lo stile. Inoltre, rilasciamo pubblicamente i pesi dei modelli fine-tuned.
English
Pre-training equips text-to-image (T2I) models with broad world knowledge, but this alone is often insufficient to achieve high aesthetic quality and alignment. Consequently, supervised fine-tuning (SFT) is crucial for further refinement. However, its effectiveness highly depends on the quality of the fine-tuning dataset. Existing public SFT datasets frequently target narrow domains (e.g., anime or specific art styles), and the creation of high-quality, general-purpose SFT datasets remains a significant challenge. Current curation methods are often costly and struggle to identify truly impactful samples. This challenge is further complicated by the scarcity of public general-purpose datasets, as leading models often rely on large, proprietary, and poorly documented internal data, hindering broader research progress. This paper introduces a novel methodology for creating general-purpose SFT datasets by leveraging a pre-trained generative model as an estimator of high-impact training samples. We apply this methodology to construct and release Alchemist, a compact (3,350 samples) yet highly effective SFT dataset. Experiments demonstrate that Alchemist substantially improves the generative quality of five public T2I models while preserving diversity and style. Additionally, we release the fine-tuned models' weights to the public.
PDF833May 27, 2025