ChatPaper.aiChatPaper

Alchimiste : Libérer l'efficacité dans l'entraînement des modèles texte-image par la sélection méta-gradient de données

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

December 18, 2025
papers.authors: Kaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao
cs.AI

papers.abstract

Les récents progrès des modèles génératifs Texte-Image (T2I) tels qu'Imagen, Stable Diffusion et FLUX ont conduit à des améliorations remarquables de la qualité visuelle. Cependant, leurs performances sont fondamentalement limitées par la qualité des données d'entraînement. Les ensembles de données d'images issues du web ou synthétiques contiennent souvent des échantillons de faible qualité ou redondants, ce qui entraîne une dégradation de la fidélité visuelle, un entraînement instable et un calcul inefficace. Par conséquent, une sélection efficace des données est cruciale pour améliorer l'efficacité des données. Les approches existantes reposent sur une curation manuelle coûteuse ou sur un score heuristique basé sur des caractéristiques unidimensionnelles dans le filtrage des données Texte-Image. Bien que des méthodes basées sur le méta-apprentissage aient été explorées dans les LLM, il n'existe pas d'adaptation pour les modalités image. Pour cela, nous proposons **Alchemist**, un cadre basé sur les méta-gradients pour sélectionner un sous-ensemble approprié à partir de vastes ensembles de paires texte-image. Notre approche apprend automatiquement à évaluer l'influence de chaque échantillon en optimisant itérativement le modèle d'un point de vue centré sur les données. Alchemist se compose de deux étapes clés : l'évaluation des données et l'élagage des données. Nous entraînons un évaluateur léger pour estimer l'influence de chaque échantillon sur la base d'informations de gradient, enrichies par une perception multi-granularité. Nous utilisons ensuite la stratégie Shift-Gsampling pour sélectionner des sous-ensemble informatifs pour un entraînement efficace du modèle. Alchemist est le premier cadre automatique, évolutif et basé sur les méta-gradients pour la sélection de données pour l'entraînement des modèles Texte-Image. Les expériences menées sur des ensembles de données synthétiques et issus du web démontrent qu'Alchemist améliore constamment la qualité visuelle et les performances en aval. L'entraînement sur seulement 50 % des données sélectionnées par Alchemist peut surpasser l'entraînement sur l'ensemble complet des données.
English
Recent advances in Text-to-Image (T2I) generative models, such as Imagen, Stable Diffusion, and FLUX, have led to remarkable improvements in visual quality. However, their performance is fundamentally limited by the quality of training data. Web-crawled and synthetic image datasets often contain low-quality or redundant samples, which lead to degraded visual fidelity, unstable training, and inefficient computation. Hence, effective data selection is crucial for improving data efficiency. Existing approaches rely on costly manual curation or heuristic scoring based on single-dimensional features in Text-to-Image data filtering. Although meta-learning based method has been explored in LLM, there is no adaptation for image modalities. To this end, we propose **Alchemist**, a meta-gradient-based framework to select a suitable subset from large-scale text-image data pairs. Our approach automatically learns to assess the influence of each sample by iteratively optimizing the model from a data-centric perspective. Alchemist consists of two key stages: data rating and data pruning. We train a lightweight rater to estimate each sample's influence based on gradient information, enhanced with multi-granularity perception. We then use the Shift-Gsampling strategy to select informative subsets for efficient model training. Alchemist is the first automatic, scalable, meta-gradient-based data selection framework for Text-to-Image model training. Experiments on both synthetic and web-crawled datasets demonstrate that Alchemist consistently improves visual quality and downstream performance. Training on an Alchemist-selected 50% of the data can outperform training on the full dataset.
PDF212December 20, 2025