Alchimiste : Transformer les données publiques de texte en image en or génératif
Alchemist: Turning Public Text-to-Image Data into Generative Gold
May 25, 2025
Auteurs: Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin
cs.AI
Résumé
Le pré-entraînement confère aux modèles de génération d'images à partir de texte (T2I) une connaissance générale du monde, mais cela seul est souvent insuffisant pour atteindre une qualité esthétique élevée et un bon alignement. Par conséquent, le fine-tuning supervisé (SFT) est crucial pour un raffinement ultérieur. Cependant, son efficacité dépend fortement de la qualité du jeu de données utilisé pour le fine-tuning. Les jeux de données SFT publics existants ciblent fréquemment des domaines restreints (par exemple, l'anime ou des styles artistiques spécifiques), et la création de jeux de données SFT polyvalents et de haute qualité reste un défi majeur. Les méthodes actuelles de curation sont souvent coûteuses et peinent à identifier des échantillons véritablement impactants. Ce défi est encore compliqué par la rareté des jeux de données polyvalents publics, car les modèles leaders reposent souvent sur des données internes volumineuses, propriétaires et mal documentées, ce qui entrave les progrès de la recherche. Cet article présente une nouvelle méthodologie pour créer des jeux de données SFT polyvalents en exploitant un modèle génératif pré-entraîné comme estimateur d'échantillons d'entraînement à fort impact. Nous appliquons cette méthodologie pour construire et publier Alchemist, un jeu de données SFT compact (3 350 échantillons) mais très efficace. Les expériences démontrent qu'Alchemist améliore considérablement la qualité générative de cinq modèles T2I publics tout en préservant la diversité et le style. De plus, nous publions les poids des modèles fine-tunés pour le public.
English
Pre-training equips text-to-image (T2I) models with broad world knowledge,
but this alone is often insufficient to achieve high aesthetic quality and
alignment. Consequently, supervised fine-tuning (SFT) is crucial for further
refinement. However, its effectiveness highly depends on the quality of the
fine-tuning dataset. Existing public SFT datasets frequently target narrow
domains (e.g., anime or specific art styles), and the creation of high-quality,
general-purpose SFT datasets remains a significant challenge. Current curation
methods are often costly and struggle to identify truly impactful samples. This
challenge is further complicated by the scarcity of public general-purpose
datasets, as leading models often rely on large, proprietary, and poorly
documented internal data, hindering broader research progress. This paper
introduces a novel methodology for creating general-purpose SFT datasets by
leveraging a pre-trained generative model as an estimator of high-impact
training samples. We apply this methodology to construct and release Alchemist,
a compact (3,350 samples) yet highly effective SFT dataset. Experiments
demonstrate that Alchemist substantially improves the generative quality of
five public T2I models while preserving diversity and style. Additionally, we
release the fine-tuned models' weights to the public.Summary
AI-Generated Summary