Alquimista: Desbloqueando a Eficiência no Treinamento de Modelos de Texto para Imagem via Seleção de Dados por Meta-Gradientes
Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection
December 18, 2025
Autores: Kaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao
cs.AI
Resumo
Os recentes avanços nos modelos generativos de Texto para Imagem (T2I), como Imagen, Stable Diffusion e FLUX, levaram a melhorias notáveis na qualidade visual. No entanto, o seu desempenho é fundamentalmente limitado pela qualidade dos dados de treino. Os conjuntos de dados de imagens obtidas por web crawling e sintéticas contêm frequentemente amostras de baixa qualidade ou redundantes, o que leva a uma fidelidade visual degradada, a um treino instável e a uma computação ineficiente. Por conseguinte, uma seleção eficaz de dados é crucial para melhorar a eficiência dos dados. As abordagens existentes baseiam-se numa curadoria manual dispendiosa ou numa pontuação heurística baseada em características unidimensionais na filtragem de dados Texto para Imagem. Embora um método baseado em meta-aprendizagem tenha sido explorado em LLM, não existe uma adaptação para modalidades de imagem. Para tal, propomos o **Alchemist**, uma estrutura baseada em meta-gradientes para selecionar um subconjunto adequado de pares de dados texto-imagem de grande escala. A nossa abordagem aprende automaticamente a avaliar a influência de cada amostra, otimizando iterativamente o modelo a partir de uma perspetiva centrada nos dados. O Alchemist consiste em duas etapas principais: classificação de dados e poda de dados. Treinamos um classificador leve para estimar a influência de cada amostra com base em informações de gradiente, aprimoradas com perceção multi-granularidade. Em seguida, utilizamos a estratégia Shift-Gsampling para selecionar subconjuntos informativos para um treino eficiente do modelo. O Alchemist é a primeira estrutura de seleção de dados automática, escalável e baseada em meta-gradientes para o treino de modelos Texto para Imagem. Experiências em conjuntos de dados sintéticos e obtidos por web crawling demonstram que o Alchemist melhora consistentemente a qualidade visual e o desempenho em tarefas subsequentes. O treino com 50% dos dados selecionados pelo Alchemist pode superar o treino com o conjunto de dados completo.
English
Recent advances in Text-to-Image (T2I) generative models, such as Imagen, Stable Diffusion, and FLUX, have led to remarkable improvements in visual quality. However, their performance is fundamentally limited by the quality of training data. Web-crawled and synthetic image datasets often contain low-quality or redundant samples, which lead to degraded visual fidelity, unstable training, and inefficient computation. Hence, effective data selection is crucial for improving data efficiency. Existing approaches rely on costly manual curation or heuristic scoring based on single-dimensional features in Text-to-Image data filtering. Although meta-learning based method has been explored in LLM, there is no adaptation for image modalities. To this end, we propose **Alchemist**, a meta-gradient-based framework to select a suitable subset from large-scale text-image data pairs. Our approach automatically learns to assess the influence of each sample by iteratively optimizing the model from a data-centric perspective. Alchemist consists of two key stages: data rating and data pruning. We train a lightweight rater to estimate each sample's influence based on gradient information, enhanced with multi-granularity perception. We then use the Shift-Gsampling strategy to select informative subsets for efficient model training. Alchemist is the first automatic, scalable, meta-gradient-based data selection framework for Text-to-Image model training. Experiments on both synthetic and web-crawled datasets demonstrate that Alchemist consistently improves visual quality and downstream performance. Training on an Alchemist-selected 50% of the data can outperform training on the full dataset.