Alquimista: Transformando datos públicos de texto a imagen en oro generativo
Alchemist: Turning Public Text-to-Image Data into Generative Gold
May 25, 2025
Autores: Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin
cs.AI
Resumen
El preentrenamiento equipa a los modelos de texto a imagen (T2I) con un amplio conocimiento del mundo, pero esto por sí solo a menudo es insuficiente para lograr una alta calidad estética y alineación. En consecuencia, el ajuste fino supervisado (SFT, por sus siglas en inglés) es crucial para un refinamiento adicional. Sin embargo, su efectividad depende en gran medida de la calidad del conjunto de datos de ajuste fino. Los conjuntos de datos públicos de SFT existentes suelen enfocarse en dominios específicos (por ejemplo, anime o estilos artísticos particulares), y la creación de conjuntos de datos de SFT de alta calidad y propósito general sigue siendo un desafío significativo. Los métodos actuales de curaduría suelen ser costosos y tienen dificultades para identificar muestras verdaderamente impactantes. Este desafío se complica aún más por la escasez de conjuntos de datos públicos de propósito general, ya que los modelos líderes a menudo dependen de grandes volúmenes de datos internos, propietarios y poco documentados, lo que obstaculiza el progreso de la investigación en general. Este artículo introduce una metodología novedosa para la creación de conjuntos de datos de SFT de propósito general, aprovechando un modelo generativo preentrenado como estimador de muestras de entrenamiento de alto impacto. Aplicamos esta metodología para construir y publicar Alchemist, un conjunto de datos de SFT compacto (3,350 muestras) pero altamente efectivo. Los experimentos demuestran que Alchemist mejora sustancialmente la calidad generativa de cinco modelos públicos de T2I, al tiempo que preserva la diversidad y el estilo. Además, publicamos los pesos de los modelos ajustados para el uso público.
English
Pre-training equips text-to-image (T2I) models with broad world knowledge,
but this alone is often insufficient to achieve high aesthetic quality and
alignment. Consequently, supervised fine-tuning (SFT) is crucial for further
refinement. However, its effectiveness highly depends on the quality of the
fine-tuning dataset. Existing public SFT datasets frequently target narrow
domains (e.g., anime or specific art styles), and the creation of high-quality,
general-purpose SFT datasets remains a significant challenge. Current curation
methods are often costly and struggle to identify truly impactful samples. This
challenge is further complicated by the scarcity of public general-purpose
datasets, as leading models often rely on large, proprietary, and poorly
documented internal data, hindering broader research progress. This paper
introduces a novel methodology for creating general-purpose SFT datasets by
leveraging a pre-trained generative model as an estimator of high-impact
training samples. We apply this methodology to construct and release Alchemist,
a compact (3,350 samples) yet highly effective SFT dataset. Experiments
demonstrate that Alchemist substantially improves the generative quality of
five public T2I models while preserving diversity and style. Additionally, we
release the fine-tuned models' weights to the public.Summary
AI-Generated Summary