ChatPaper.aiChatPaper

Alquimista: Transformando Dados Públicos de Texto para Imagem em Ouro Generativo

Alchemist: Turning Public Text-to-Image Data into Generative Gold

May 25, 2025
Autores: Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin
cs.AI

Resumo

O pré-treinamento equipa os modelos de texto para imagem (T2I) com um amplo conhecimento do mundo, mas isso por si só muitas vezes é insuficiente para alcançar alta qualidade estética e alinhamento. Consequentemente, o ajuste fino supervisionado (SFT) é crucial para um refinamento adicional. No entanto, sua eficácia depende muito da qualidade do conjunto de dados de ajuste fino. Os conjuntos de dados públicos de SFT existentes frequentemente se concentram em domínios restritos (por exemplo, anime ou estilos artísticos específicos), e a criação de conjuntos de dados de SFT de alta qualidade e propósito geral continua sendo um desafio significativo. Os métodos atuais de curadoria são frequentemente custosos e lutam para identificar amostras verdadeiramente impactantes. Esse desafio é ainda mais complicado pela escassez de conjuntos de dados públicos de propósito geral, uma vez que os principais modelos frequentemente dependem de grandes volumes de dados internos, proprietários e mal documentados, dificultando o progresso da pesquisa em geral. Este artigo introduz uma nova metodologia para a criação de conjuntos de dados de SFT de propósito geral, utilizando um modelo generativo pré-treinado como um estimador de amostras de treinamento de alto impacto. Aplicamos essa metodologia para construir e lançar o Alchemist, um conjunto de dados de SFT compacto (3.350 amostras), mas altamente eficaz. Experimentos demonstram que o Alchemist melhora substancialmente a qualidade gerativa de cinco modelos públicos de T2I, preservando a diversidade e o estilo. Além disso, disponibilizamos publicamente os pesos dos modelos ajustados.
English
Pre-training equips text-to-image (T2I) models with broad world knowledge, but this alone is often insufficient to achieve high aesthetic quality and alignment. Consequently, supervised fine-tuning (SFT) is crucial for further refinement. However, its effectiveness highly depends on the quality of the fine-tuning dataset. Existing public SFT datasets frequently target narrow domains (e.g., anime or specific art styles), and the creation of high-quality, general-purpose SFT datasets remains a significant challenge. Current curation methods are often costly and struggle to identify truly impactful samples. This challenge is further complicated by the scarcity of public general-purpose datasets, as leading models often rely on large, proprietary, and poorly documented internal data, hindering broader research progress. This paper introduces a novel methodology for creating general-purpose SFT datasets by leveraging a pre-trained generative model as an estimator of high-impact training samples. We apply this methodology to construct and release Alchemist, a compact (3,350 samples) yet highly effective SFT dataset. Experiments demonstrate that Alchemist substantially improves the generative quality of five public T2I models while preserving diversity and style. Additionally, we release the fine-tuned models' weights to the public.
PDF844December 16, 2025