Alquimista: Transformando datos públicos de texto a imagen en oro generativo

Resumen

El preentrenamiento equipa a los modelos de texto a imagen (T2I) con un amplio conocimiento del mundo, pero esto por sí solo a menudo es insuficiente para lograr una alta calidad estética y alineación. En consecuencia, el ajuste fino supervisado (SFT, por sus siglas en inglés) es crucial para un refinamiento adicional. Sin embargo, su efectividad depende en gran medida de la calidad del conjunto de datos de ajuste fino. Los conjuntos de datos públicos de SFT existentes suelen enfocarse en dominios específicos (por ejemplo, anime o estilos artísticos particulares), y la creación de conjuntos de datos de SFT de alta calidad y propósito general sigue siendo un desafío significativo. Los métodos actuales de curaduría suelen ser costosos y tienen dificultades para identificar muestras verdaderamente impactantes. Este desafío se complica aún más por la escasez de conjuntos de datos públicos de propósito general, ya que los modelos líderes a menudo dependen de grandes volúmenes de datos internos, propietarios y poco documentados, lo que obstaculiza el progreso de la investigación en general. Este artículo introduce una metodología novedosa para la creación de conjuntos de datos de SFT de propósito general, aprovechando un modelo generativo preentrenado como estimador de muestras de entrenamiento de alto impacto. Aplicamos esta metodología para construir y publicar Alchemist, un conjunto de datos de SFT compacto (3,350 muestras) pero altamente efectivo. Los experimentos demuestran que Alchemist mejora sustancialmente la calidad generativa de cinco modelos públicos de T2I, al tiempo que preserva la diversidad y el estilo. Además, publicamos los pesos de los modelos ajustados para el uso público.

English

Pre-training equips text-to-image (T2I) models with broad world knowledge, but this alone is often insufficient to achieve high aesthetic quality and alignment. Consequently, supervised fine-tuning (SFT) is crucial for further refinement. However, its effectiveness highly depends on the quality of the fine-tuning dataset. Existing public SFT datasets frequently target narrow domains (e.g., anime or specific art styles), and the creation of high-quality, general-purpose SFT datasets remains a significant challenge. Current curation methods are often costly and struggle to identify truly impactful samples. This challenge is further complicated by the scarcity of public general-purpose datasets, as leading models often rely on large, proprietary, and poorly documented internal data, hindering broader research progress. This paper introduces a novel methodology for creating general-purpose SFT datasets by leveraging a pre-trained generative model as an estimator of high-impact training samples. We apply this methodology to construct and release Alchemist, a compact (3,350 samples) yet highly effective SFT dataset. Experiments demonstrate that Alchemist substantially improves the generative quality of five public T2I models while preserving diversity and style. Additionally, we release the fine-tuned models' weights to the public.

Alquimista: Transformando datos públicos de texto a imagen en oro generativo

Alchemist: Turning Public Text-to-Image Data into Generative Gold

Resumen

Support