연금술사: 메타-그래디언트 데이터 선택을 통한 텍스트-이미지 모델 학습 효율 극대화
Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection
December 18, 2025
저자: Kaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao
cs.AI
초록
텍스트-이미지(T2I) 생성 모델(Imagen, Stable Diffusion, FLUX 등)의 최근 발전은 시각적 품질에서 뚜렷한 향상을 가져왔습니다. 그러나 이들의 성능은 근본적으로 학습 데이터의 품질에 의해 제한됩니다. 웹에서 수집되거나 합성된 이미지 데이터셋은 종종 저품질 또는 중복 샘플을 포함하여, 이는 시각적 충실도 저하, 불안정한 학습, 비효율적인 계산으로 이어집니다. 따라서 효과적인 데이터 선택은 데이터 효율성 향상에 중요합니다. 기존 접근법은 T2I 데이터 필터링에서 비용이 많이 드는 수동 정제나 단일 차원 특징에 기반한 휴리스틱 점수화에 의존해왔습니다. 메타 학습 기반 방법이 대규모 언어 모델(LLM)에서는 탐구되었으나, 이미지 모달리티에는 적용되지 않았습니다. 이를 위해 우리는 **Alchemist**라는 메타 그래디언트 기반 프레임워크를 제안하여 대규모 텍스트-이미지 데이터 쌍에서 적합한 부분집합을 선택합니다. 우리의 접근법은 데이터 중심 관점에서 모델을 반복적으로 최적화함으로써 각 샘플의 영향력을 자동으로 학습하여 평가합니다. Alchemist는 데이터 등급 평가와 데이터 프루닝이라는 두 가지 핵심 단계로 구성됩니다. 우리는 경량 등급 평가기를 훈련시켜 다중 세분성 인식으로 강화된 그래디언트 정보를 기반으로 각 샘플의 영향력을 추정합니다. 그런 다음 Shift-Gsampling 전략을 사용하여 효율적인 모델 학습을 위한 정보적 부분집합을 선택합니다. Alchemist는 T2I 모델 학습을 위한 최초의 자동화되고 확장 가능한 메타 그래디언트 기반 데이터 선택 프레임워크입니다. 합성 및 웹 크롤링 데이터셋에 대한 실험은 Alchemist가 시각적 품질과 하위 작업 성능을 지속적으로 향상시킴을 입증합니다. Alchemist로 선택된 데이터의 50%로 학습하는 것이 전체 데이터셋으로 학습한 결과를 능가할 수 있습니다.
English
Recent advances in Text-to-Image (T2I) generative models, such as Imagen, Stable Diffusion, and FLUX, have led to remarkable improvements in visual quality. However, their performance is fundamentally limited by the quality of training data. Web-crawled and synthetic image datasets often contain low-quality or redundant samples, which lead to degraded visual fidelity, unstable training, and inefficient computation. Hence, effective data selection is crucial for improving data efficiency. Existing approaches rely on costly manual curation or heuristic scoring based on single-dimensional features in Text-to-Image data filtering. Although meta-learning based method has been explored in LLM, there is no adaptation for image modalities. To this end, we propose **Alchemist**, a meta-gradient-based framework to select a suitable subset from large-scale text-image data pairs. Our approach automatically learns to assess the influence of each sample by iteratively optimizing the model from a data-centric perspective. Alchemist consists of two key stages: data rating and data pruning. We train a lightweight rater to estimate each sample's influence based on gradient information, enhanced with multi-granularity perception. We then use the Shift-Gsampling strategy to select informative subsets for efficient model training. Alchemist is the first automatic, scalable, meta-gradient-based data selection framework for Text-to-Image model training. Experiments on both synthetic and web-crawled datasets demonstrate that Alchemist consistently improves visual quality and downstream performance. Training on an Alchemist-selected 50% of the data can outperform training on the full dataset.