ChatPaper.aiChatPaper

自己評価による任意ステップのテキスト画像生成の実現

Self-Evaluation Unlocks Any-Step Text-to-Image Generation

December 26, 2025
著者: Xin Yu, Xiaojuan Qi, Zhengqi Li, Kai Zhang, Richard Zhang, Zhe Lin, Eli Shechtman, Tianyu Wang, Yotam Nitzan
cs.AI

要旨

本論文では、任意ステップ推論を可能にする新規のテキスト画像生成手法「Self-Evaluating Model (Self-E)」を提案する。Self-EはFlow Matchingモデルと同様にデータから学習する一方、独自の自己評価メカニズムを併用する。すなわち、現在のスコア推定値を用いて自身が生成したサンプルを評価し、動的な自己教師として機能する。従来の拡散モデルやフローモデルとは異なり、多数の推論ステップを必要とする局所的な監督のみに依存せず、知識蒸留ベースの手法とは異なり、事前学習済み教師モデルを必要としない。瞬時の局所学習と自己駆動型の大域的マッチングを組み合わせることで、両パラダイム間の隔たりを埋め、少ステップ数においても優れた性能を発揮するテキスト画像モデルのスクラッチ学習を実現する。大規模テキスト画像ベンチマークにおける広範な実験により、Self-Eが少ステップ生成で優れるだけでなく、50ステップにおいても最先端のFlow Matchingモデルと競合することを示す。さらに、その性能は推論ステップ数の増加に伴い単調に向上し、単一の統一モデル内で超高速な少ステップ生成と高品質な長軌道サンプリングの両方を実現する。知る限り、Self-Eはスクラッチ学習による初の任意ステップテキスト画像モデルであり、効率的かつスケーラブルな生成のための統一フレームワークを提供する。
English
We introduce the Self-Evaluating Model (Self-E), a novel, from-scratch training approach for text-to-image generation that supports any-step inference. Self-E learns from data similarly to a Flow Matching model, while simultaneously employing a novel self-evaluation mechanism: it evaluates its own generated samples using its current score estimates, effectively serving as a dynamic self-teacher. Unlike traditional diffusion or flow models, it does not rely solely on local supervision, which typically necessitates many inference steps. Unlike distillation-based approaches, it does not require a pretrained teacher. This combination of instantaneous local learning and self-driven global matching bridges the gap between the two paradigms, enabling the training of a high-quality text-to-image model from scratch that excels even at very low step counts. Extensive experiments on large-scale text-to-image benchmarks show that Self-E not only excels in few-step generation, but is also competitive with state-of-the-art Flow Matching models at 50 steps. We further find that its performance improves monotonically as inference steps increase, enabling both ultra-fast few-step generation and high-quality long-trajectory sampling within a single unified model. To our knowledge, Self-E is the first from-scratch, any-step text-to-image model, offering a unified framework for efficient and scalable generation.
PDF11December 31, 2025