ChatPaper.aiChatPaper

Алхимик: Повышение эффективности обучения моделей генерации изображений по тексту с помощью мета-градиентного отбора данных

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

December 18, 2025
Авторы: Kaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao
cs.AI

Аннотация

Последние достижения в области генеративных моделей «текст-изображение» (Text-to-Image, T2I), таких как Imagen, Stable Diffusion и FLUX, привели к значительному улучшению визуального качества. Однако их производительность фундаментально ограничена качеством обучающих данных. Веб-скрапленные и синтетические наборы данных изображений часто содержат низкокачественные или избыточные примеры, что приводит к снижению визуальной достоверности, нестабильности обучения и неэффективным вычислениям. Следовательно, эффективный отбор данных крайне важен для повышения эффективности их использования. Существующие подходы полагаются на дорогостоящую ручную курацию или эвристическую оценку на основе одномерных признаков при фильтрации данных для T2I. Хотя методы на основе мета-обучения исследовались для больших языковых моделей (LLM), их адаптация для модальности изображений отсутствует. Для решения этой проблемы мы предлагаем **Alchemist** — фреймворк на основе мета-градиентов для отбора подходящего подмножества из крупномасштабных пар «текст-изображение». Наш подход автоматически обучается оценивать влияние каждого образца путем итеративной оптимизации модели с центрированной на данных точки зрения. Alchemist состоит из двух ключевых этапов: оценка данных и прореживание данных. Мы обучаем легковесный модуль оценки, чтобы предсказывать влияние каждого примера на основе градиентной информации, усиленной многомасштабным восприятием. Затем мы используем стратегию Shift-Gsampling для отбора информативных подмножеств с целью эффективного обучения модели. Alchemist является первой автоматической, масштабируемой системой отбора данных на основе мета-градиентов для обучения T2I-моделей. Эксперименты на синтетических и веб-скрапленных наборах данных демонстрируют, что Alchemist стабильно улучшает визуальное качество и результаты на последующих задачах. Обучение на 50% данных, отобранных с помощью Alchemist, может превзойти обучение на полном наборе данных.
English
Recent advances in Text-to-Image (T2I) generative models, such as Imagen, Stable Diffusion, and FLUX, have led to remarkable improvements in visual quality. However, their performance is fundamentally limited by the quality of training data. Web-crawled and synthetic image datasets often contain low-quality or redundant samples, which lead to degraded visual fidelity, unstable training, and inefficient computation. Hence, effective data selection is crucial for improving data efficiency. Existing approaches rely on costly manual curation or heuristic scoring based on single-dimensional features in Text-to-Image data filtering. Although meta-learning based method has been explored in LLM, there is no adaptation for image modalities. To this end, we propose **Alchemist**, a meta-gradient-based framework to select a suitable subset from large-scale text-image data pairs. Our approach automatically learns to assess the influence of each sample by iteratively optimizing the model from a data-centric perspective. Alchemist consists of two key stages: data rating and data pruning. We train a lightweight rater to estimate each sample's influence based on gradient information, enhanced with multi-granularity perception. We then use the Shift-Gsampling strategy to select informative subsets for efficient model training. Alchemist is the first automatic, scalable, meta-gradient-based data selection framework for Text-to-Image model training. Experiments on both synthetic and web-crawled datasets demonstrate that Alchemist consistently improves visual quality and downstream performance. Training on an Alchemist-selected 50% of the data can outperform training on the full dataset.
PDF212December 20, 2025