L'autovalutazione sblocca la generazione di immagini da testo a qualsiasi stadio.

Abstract

Introduciamo Self-Evaluating Model (Self-E), un approccio innovativo di addestramento da zero per la generazione di testo-immagine che supporta l'inferenza con un numero qualsiasi di passi. Self-E apprende dai dati in modo simile a un modello di Flow Matching, impiegando contemporaneamente un nuovo meccanismo di autovalutazione: valuta i propri campioni generati utilizzando le stime correnti del punteggio, fungendo efficacemente da un insegnante dinamico per se stesso. A differenza dei modelli di diffusione o di flusso tradizionali, non si affida esclusivamente a una supervisione locale, che tipicamente richiede molti passi di inferenza. A differenza degli approcci basati sulla distillazione, non necessita di un insegnante preaddestrato. Questa combinazione di apprendimento locale istantaneo e corrispondenza globale autoguidata colma il divario tra i due paradigmi, permettendo l'addestramento da zero di un modello testo-immagine di alta qualità che eccelle anche con un numero di passi molto basso. Esperimenti estensivi su benchmark testo-immagine su larga scala mostrano che Self-E non solo eccelle nella generazione con pochi passi, ma è anche competitivo con i modelli all'avanguardia di Flow Matching a 50 passi. Inoltre, scopriamo che le sue prestazioni migliorano in modo monotono all'aumentare dei passi di inferenza, consentendo sia una generazione ultra-rapida con pochi passi sia un campionamento di alta qualità con traiettorie lunghe all'interno di un unico modello unificato. A nostra conoscenza, Self-E è il primo modello testo-immagine addestrato da zero e per qualsiasi numero di passi, che offre un framework unificato per una generazione efficiente e scalabile.

English

We introduce the Self-Evaluating Model (Self-E), a novel, from-scratch training approach for text-to-image generation that supports any-step inference. Self-E learns from data similarly to a Flow Matching model, while simultaneously employing a novel self-evaluation mechanism: it evaluates its own generated samples using its current score estimates, effectively serving as a dynamic self-teacher. Unlike traditional diffusion or flow models, it does not rely solely on local supervision, which typically necessitates many inference steps. Unlike distillation-based approaches, it does not require a pretrained teacher. This combination of instantaneous local learning and self-driven global matching bridges the gap between the two paradigms, enabling the training of a high-quality text-to-image model from scratch that excels even at very low step counts. Extensive experiments on large-scale text-to-image benchmarks show that Self-E not only excels in few-step generation, but is also competitive with state-of-the-art Flow Matching models at 50 steps. We further find that its performance improves monotonically as inference steps increase, enabling both ultra-fast few-step generation and high-quality long-trajectory sampling within a single unified model. To our knowledge, Self-E is the first from-scratch, any-step text-to-image model, offering a unified framework for efficient and scalable generation.

L'autovalutazione sblocca la generazione di immagini da testo a qualsiasi stadio.

Self-Evaluation Unlocks Any-Step Text-to-Image Generation

Abstract

Support