ChatPaper.aiChatPaper

L'auto-évaluation débloque la génération d'images à partir de texte en un nombre d'étapes quelconque

Self-Evaluation Unlocks Any-Step Text-to-Image Generation

December 26, 2025
papers.authors: Xin Yu, Xiaojuan Qi, Zhengqi Li, Kai Zhang, Richard Zhang, Zhe Lin, Eli Shechtman, Tianyu Wang, Yotam Nitzan
cs.AI

papers.abstract

Nous présentons le Self-Evaluating Model (Self-E), une nouvelle approche d'entraînement *from-scratch* pour la génération d'images à partir de texte qui prend en charge l'inférence en un nombre quelconque d'étapes. Self-E apprend à partir des données de manière similaire à un modèle de Flow Matching, tout en utilisant simultanément un nouveau mécanisme d'auto-évaluation : il évalue ses propres échantillons générés en utilisant ses estimations de score actuelles, servant ainsi efficacement de professeur dynamique pour lui-même. Contrairement aux modèles de diffusion ou de flux traditionnels, il ne repose pas uniquement sur une supervision locale, qui nécessite typiquement de nombreuses étapes d'inférence. Contrairement aux approches basées sur la distillation, il ne nécessite pas de modèle enseignant préentraîné. Cette combinaison d'un apprentissage local instantané et d'un appariement global auto-piloté comble le fossé entre les deux paradigmes, permettant l'entraînement d'un modèle de génération texte-image de haute qualité à partir de zéro qui excelle même avec un très faible nombre d'étapes. Des expériences approfondies sur des benchmarks de génération texte-image à grande échelle montrent que Self-E excelle non seulement en génération en peu d'étapes, mais est également compétitif avec les modèles de Flow Matching de pointe à 50 étapes. Nous constatons en outre que ses performances s'améliorent de manière monotone à mesure que le nombre d'étapes d'inférence augmente, permettant à la fois une génération ultra-rapide en peu d'étapes et un échantillonnage de haute qualité sur de longues trajectoires au sein d'un seul modèle unifié. À notre connaissance, Self-E est le premier modèle texte-image *from-scratch* et à nombre d'étapes variable, offrant un cadre unifié pour une génération efficace et évolutive.
English
We introduce the Self-Evaluating Model (Self-E), a novel, from-scratch training approach for text-to-image generation that supports any-step inference. Self-E learns from data similarly to a Flow Matching model, while simultaneously employing a novel self-evaluation mechanism: it evaluates its own generated samples using its current score estimates, effectively serving as a dynamic self-teacher. Unlike traditional diffusion or flow models, it does not rely solely on local supervision, which typically necessitates many inference steps. Unlike distillation-based approaches, it does not require a pretrained teacher. This combination of instantaneous local learning and self-driven global matching bridges the gap between the two paradigms, enabling the training of a high-quality text-to-image model from scratch that excels even at very low step counts. Extensive experiments on large-scale text-to-image benchmarks show that Self-E not only excels in few-step generation, but is also competitive with state-of-the-art Flow Matching models at 50 steps. We further find that its performance improves monotonically as inference steps increase, enabling both ultra-fast few-step generation and high-quality long-trajectory sampling within a single unified model. To our knowledge, Self-E is the first from-scratch, any-step text-to-image model, offering a unified framework for efficient and scalable generation.
PDF11December 31, 2025