ChatPaper.aiChatPaper

Alquimista: Desbloqueando la Eficiencia en el Entrenamiento de Modelos de Texto a Imagen mediante la Selección de Datos por Meta-Gradientes

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

December 18, 2025
Autores: Kaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao
cs.AI

Resumen

Los recientes avances en los modelos generativos de Texto a Imagen (T2I), como Imagen, Stable Diffusion y FLUX, han conducido a mejoras notables en la calidad visual. Sin embargo, su rendimiento está fundamentalmente limitado por la calidad de los datos de entrenamiento. Los conjuntos de datos de imágenes sintéticas o obtenidas mediante rastreo web a menudo contienen muestras de baja calidad o redundantes, lo que genera una fidelidad visual degradada, entrenamiento inestable y cómputo ineficiente. Por lo tanto, una selección efectiva de datos es crucial para mejorar la eficiencia de los datos. Los enfoques existentes se basan en una costosa curación manual o en puntuaciones heurísticas basadas en características unidimensionales para el filtrado de datos de Texto a Imagen. Aunque se ha explorado el método basado en meta-aprendizaje en los LLM, no existe una adaptación para las modalidades de imagen. Con este fin, proponemos **Alchemist**, un marco basado en meta-gradientes para seleccionar un subconjunto adecuado de pares de datos texto-imagen a gran escala. Nuestro enfoque aprende automáticamente a evaluar la influencia de cada muestra optimizando iterativamente el modelo desde una perspectiva centrada en los datos. Alchemist consta de dos etapas clave: calificación de datos y poda de datos. Entrenamos un calificador ligero para estimar la influencia de cada muestra basándose en información de gradiente, mejorada con percepción multi-granular. Luego utilizamos la estrategia Shift-Gsampling para seleccionar subconjuntos informativos para un entrenamiento eficiente del modelo. Alchemist es el primer marco de selección de datos automático, escalable y basado en meta-gradientes para el entrenamiento de modelos de Texto a Imagen. Los experimentos en conjuntos de datos tanto sintéticos como obtenidos por rastreo web demuestran que Alchemist mejora consistentemente la calidad visual y el rendimiento en tareas posteriores. El entrenamiento con un 50% de los datos seleccionados por Alchemist puede superar al entrenamiento con el conjunto de datos completo.
English
Recent advances in Text-to-Image (T2I) generative models, such as Imagen, Stable Diffusion, and FLUX, have led to remarkable improvements in visual quality. However, their performance is fundamentally limited by the quality of training data. Web-crawled and synthetic image datasets often contain low-quality or redundant samples, which lead to degraded visual fidelity, unstable training, and inefficient computation. Hence, effective data selection is crucial for improving data efficiency. Existing approaches rely on costly manual curation or heuristic scoring based on single-dimensional features in Text-to-Image data filtering. Although meta-learning based method has been explored in LLM, there is no adaptation for image modalities. To this end, we propose **Alchemist**, a meta-gradient-based framework to select a suitable subset from large-scale text-image data pairs. Our approach automatically learns to assess the influence of each sample by iteratively optimizing the model from a data-centric perspective. Alchemist consists of two key stages: data rating and data pruning. We train a lightweight rater to estimate each sample's influence based on gradient information, enhanced with multi-granularity perception. We then use the Shift-Gsampling strategy to select informative subsets for efficient model training. Alchemist is the first automatic, scalable, meta-gradient-based data selection framework for Text-to-Image model training. Experiments on both synthetic and web-crawled datasets demonstrate that Alchemist consistently improves visual quality and downstream performance. Training on an Alchemist-selected 50% of the data can outperform training on the full dataset.
PDF212December 20, 2025