ChatPaper.aiChatPaper

錬金術師:メタ勾配データ選択によるテキスト画像モデル学習の効率化

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

December 18, 2025
著者: Kaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao
cs.AI

要旨

Imagen、Stable Diffusion、FLUXなどのテキストから画像への生成モデル(T2I)の近年の進展により、視覚的品質は著しく向上している。しかし、その性能は本質的に学習データの品質に制限される。ウェブクロールや合成による画像データセットには、低品質あるいは冗長なサンプルが含まれることが多く、これらは視覚的忠実度の低下、不安定な学習、非効率な計算を引き起こす。したがって、効果的なデータ選択はデータ効率を改善する上で極めて重要である。既存のアプローチは、T2Iデータフィルタリングにおいて、コストのかかる手動選定、または単一次元の特徴に基づくヒューリスティックなスコアリングに依存している。メタ学習に基づく手法は大規模言語モデル(LLM)では探求されているが、画像モダリティへの適応はなされていない。この課題に対し、我々は**Alchemist**を提案する。これは、大規模なテキスト-画像データペアから適切なサセットを選択する、メタ勾配ベースのフレームワークである。本手法は、データ中心の視点からモデルを反復最適化することにより、各サンプルの影響力を自動的に学習して評価する。Alchemistは、データ評価とデータ刈り込みという2つの主要段階で構成される。軽量な評価器を訓練し、マルチグラニュラリティ知覚により強化された勾配情報に基づいて各サンプルの影響力を推定する。その後、Shift-Gsampling戦略を用いて、効率的なモデル学習のための情報量の多いサブセットを選択する。Alchemistは、T2Iモデル学習のための、自動化された、スケーラブルな、メタ勾配ベースのデータ選択フレームワークとしては初めてのものである。合成データセットおよびウェブクロールデータセットを用いた実験により、Alchemistが視覚的品質と下流タスクの性能を一貫して向上させることが実証された。Alchemistで選択されたデータの50%で学習した場合でも、フルデータセットで学習した場合を上回る性能を達成できる。
English
Recent advances in Text-to-Image (T2I) generative models, such as Imagen, Stable Diffusion, and FLUX, have led to remarkable improvements in visual quality. However, their performance is fundamentally limited by the quality of training data. Web-crawled and synthetic image datasets often contain low-quality or redundant samples, which lead to degraded visual fidelity, unstable training, and inefficient computation. Hence, effective data selection is crucial for improving data efficiency. Existing approaches rely on costly manual curation or heuristic scoring based on single-dimensional features in Text-to-Image data filtering. Although meta-learning based method has been explored in LLM, there is no adaptation for image modalities. To this end, we propose **Alchemist**, a meta-gradient-based framework to select a suitable subset from large-scale text-image data pairs. Our approach automatically learns to assess the influence of each sample by iteratively optimizing the model from a data-centric perspective. Alchemist consists of two key stages: data rating and data pruning. We train a lightweight rater to estimate each sample's influence based on gradient information, enhanced with multi-granularity perception. We then use the Shift-Gsampling strategy to select informative subsets for efficient model training. Alchemist is the first automatic, scalable, meta-gradient-based data selection framework for Text-to-Image model training. Experiments on both synthetic and web-crawled datasets demonstrate that Alchemist consistently improves visual quality and downstream performance. Training on an Alchemist-selected 50% of the data can outperform training on the full dataset.
PDF212December 20, 2025