Selbstevaluation ermöglicht beliebige Schritte in der Text-zu-Bild-Generierung
Self-Evaluation Unlocks Any-Step Text-to-Image Generation
December 26, 2025
papers.authors: Xin Yu, Xiaojuan Qi, Zhengqi Li, Kai Zhang, Richard Zhang, Zhe Lin, Eli Shechtman, Tianyu Wang, Yotam Nitzan
cs.AI
papers.abstract
Wir stellen das Self-Evaluating Model (Self-E) vor, einen neuartigen Trainingsansatz für die Text-zu-Bild-Generierung von Grund auf, der Inferenz mit beliebig vielen Schritten unterstützt. Self-E lernt ähnlich wie ein Flow-Matching-Modell aus Daten, setzt dabei jedoch gleichzeitig einen neuartigen Selbstbewertungsmechanismus ein: Es bewertet seine eigenen generierten Beispiele anhand seiner aktuellen Schätzwerte (Scores) und fungiert so effektiv als dynamischer Selbst-Lehrer. Im Gegensatz zu traditionellen Diffusions- oder Flow-Modellen stützt es sich nicht ausschließlich auf lokale Supervision, die typischerweise viele Inferenzschritte erfordert. Anders als distillationsbasierte Ansätze benötigt es keinen vortrainierten Lehrer. Diese Kombination aus instantanem lokalem Lernen und selbstgesteuerter globaler Anpassung überbrückt die Lücke zwischen den beiden Paradigmen und ermöglicht das Training eines hochwertigen Text-zu-Bild-Modells von Grund auf, das selbst bei sehr geringen Schrittzahlen hervorragende Leistung erbringt. Umfangreiche Experimente mit groß angelegten Text-zu-Bild-Benchmarks zeigen, dass Self-E nicht nur in der Generierung mit wenigen Schritten überzeugt, sondern auch mit state-of-the-art Flow-Matching-Modellen bei 50 Schritten konkurrieren kann. Wir stellen weiterhin fest, dass sich seine Leistung monoton verbessert, wenn die Inferenzschritte zunehmen, was sowohl ultraschnelle Generierung mit wenigen Schritten als auch hochwertige Sampling mit langen Trajektorien innerhalb eines einzigen vereinheitlichten Modells ermöglicht. Unseres Wissens ist Self-E das erste Text-zu-Bild-Modell, das von Grund auf trainiert wird und beliebig viele Inferenzschritte unterstützt, und bietet damit einen vereinheitlichten Rahmen für effiziente und skalierbare Generierung.
English
We introduce the Self-Evaluating Model (Self-E), a novel, from-scratch training approach for text-to-image generation that supports any-step inference. Self-E learns from data similarly to a Flow Matching model, while simultaneously employing a novel self-evaluation mechanism: it evaluates its own generated samples using its current score estimates, effectively serving as a dynamic self-teacher. Unlike traditional diffusion or flow models, it does not rely solely on local supervision, which typically necessitates many inference steps. Unlike distillation-based approaches, it does not require a pretrained teacher. This combination of instantaneous local learning and self-driven global matching bridges the gap between the two paradigms, enabling the training of a high-quality text-to-image model from scratch that excels even at very low step counts. Extensive experiments on large-scale text-to-image benchmarks show that Self-E not only excels in few-step generation, but is also competitive with state-of-the-art Flow Matching models at 50 steps. We further find that its performance improves monotonically as inference steps increase, enabling both ultra-fast few-step generation and high-quality long-trajectory sampling within a single unified model. To our knowledge, Self-E is the first from-scratch, any-step text-to-image model, offering a unified framework for efficient and scalable generation.