ChatPaper.aiChatPaper

Alchemist: Het Ontsluiten van Efficiëntie in Text-to-Image Modeltraining via Meta-Gradient Gegevensselectie

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

December 18, 2025
Auteurs: Kaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao
cs.AI

Samenvatting

Recente vooruitgang in tekst-naar-beeld (T2I) generatieve modellen, zoals Imagen, Stable Diffusion en FLUX, heeft geleid tot opmerkelijke verbeteringen in de visuele kwaliteit. Hun prestaties worden echter fundamenteel beperkt door de kwaliteit van de trainingsgegevens. Web-gespiede en synthetische afbeeldingssets bevatten vaak monsters van lage kwaliteit of redundante monsters, wat leidt tot verminderde visuele kwaliteit, onstabiele training en inefficiënte rekenkracht. Daarom is effectieve dataselectie cruciaal voor het verbeteren van de data-efficiëntie. Bestaande benaderingen vertrouwen op kostbare handmatige curatie of heuristische scoring op basis van eendimensionale kenmerken bij het filteren van tekst-naar-beeldgegevens. Hoewel op meta-leren gebaseerde methoden zijn onderzocht voor grote taalmmodellen (LLM's), is er geen aanpassing voor beeldmodaliteiten. Daartoe stellen wij **Alchemist** voor, een op meta-gradiënten gebaseerd raamwerk om een geschikte subset te selecteren uit grootschalige tekst-beeldgegevensparen. Onze aanpak leert automatisch de invloed van elk monster in te schatten door het model iteratief te optimaliseren vanuit een data-gecentreerd perspectief. Alchemist bestaat uit twee belangrijke fasen: data-beoordeling en data-snoei. We trainen een lichtgewicht beoordelaar om de invloed van elk monster in te schatten op basis van gradiëntinformatie, versterkt met multi-granulariteitsperceptie. Vervolgens gebruiken we de Shift-Gsampling-strategie om informatieve subsets te selecteren voor efficiënte modeltraining. Alchemist is het eerste automatische, schaalbare, op meta-gradiënten gebaseerde dataselectieraamwerk voor de training van tekst-naar-beeldmodellen. Experimenten op zowel synthetische als web-gespiede datasets tonen aan dat Alchemist consistent de visuele kwaliteit en downstream-prestaties verbetert. Training op een door Alchemist geselecteerde 50% van de gegevens kan de training op de volledige dataset overtreffen.
English
Recent advances in Text-to-Image (T2I) generative models, such as Imagen, Stable Diffusion, and FLUX, have led to remarkable improvements in visual quality. However, their performance is fundamentally limited by the quality of training data. Web-crawled and synthetic image datasets often contain low-quality or redundant samples, which lead to degraded visual fidelity, unstable training, and inefficient computation. Hence, effective data selection is crucial for improving data efficiency. Existing approaches rely on costly manual curation or heuristic scoring based on single-dimensional features in Text-to-Image data filtering. Although meta-learning based method has been explored in LLM, there is no adaptation for image modalities. To this end, we propose **Alchemist**, a meta-gradient-based framework to select a suitable subset from large-scale text-image data pairs. Our approach automatically learns to assess the influence of each sample by iteratively optimizing the model from a data-centric perspective. Alchemist consists of two key stages: data rating and data pruning. We train a lightweight rater to estimate each sample's influence based on gradient information, enhanced with multi-granularity perception. We then use the Shift-Gsampling strategy to select informative subsets for efficient model training. Alchemist is the first automatic, scalable, meta-gradient-based data selection framework for Text-to-Image model training. Experiments on both synthetic and web-crawled datasets demonstrate that Alchemist consistently improves visual quality and downstream performance. Training on an Alchemist-selected 50% of the data can outperform training on the full dataset.
PDF302December 31, 2025