A Autoavaliação Desbloqueia a Geração de Imagens a Partir de Texto em Qualquer Estágio

Resumo

Apresentamos o Self-Evaluating Model (Self-E), uma nova abordagem de treinamento a partir do zero para geração de texto para imagem que suporta inferência com qualquer número de passos. O Self-E aprende a partir dos dados de forma semelhante a um modelo de Flow Matching, empregando simultaneamente um novo mecanismo de autoavaliação: ele avalia suas próprias amostras geradas usando suas estimativas de pontuação atuais, funcionando efetivamente como um professor dinâmico para si mesmo. Diferente dos modelos de difusão ou de fluxo tradicionais, ele não depende apenas da supervisão local, que tipicamente exige muitos passos de inferência. Diferente das abordagens baseadas em destilação, ele não requer um professor pré-treinado. Esta combinação de aprendizado local instantâneo e correspondência global autodirigida preenche a lacuna entre os dois paradigmas, permitindo o treinamento de um modelo de texto para imagem de alta qualidade a partir do zero que se destaca mesmo com contagens de passos muito baixas. Experimentos extensivos em benchmarks de texto para imagem em larga escala mostram que o Self-E não apenas se destaca na geração com poucos passos, mas também é competitivo com os modelos state-of-the-art de Flow Matching em 50 passos. Descobrimos ainda que seu desempenho melhora monotonicamente à medida que o número de passos de inferência aumenta, permitindo tanto a geração ultrarrápida com poucos passos quanto a amostragem de alta qualidade com trajetórias longas dentro de um único modelo unificado. Até onde sabemos, o Self-E é o primeiro modelo de texto para imagem treinado a partir do zero e para qualquer número de passos, oferecendo uma estrutura unificada para geração eficiente e escalável.

English

We introduce the Self-Evaluating Model (Self-E), a novel, from-scratch training approach for text-to-image generation that supports any-step inference. Self-E learns from data similarly to a Flow Matching model, while simultaneously employing a novel self-evaluation mechanism: it evaluates its own generated samples using its current score estimates, effectively serving as a dynamic self-teacher. Unlike traditional diffusion or flow models, it does not rely solely on local supervision, which typically necessitates many inference steps. Unlike distillation-based approaches, it does not require a pretrained teacher. This combination of instantaneous local learning and self-driven global matching bridges the gap between the two paradigms, enabling the training of a high-quality text-to-image model from scratch that excels even at very low step counts. Extensive experiments on large-scale text-to-image benchmarks show that Self-E not only excels in few-step generation, but is also competitive with state-of-the-art Flow Matching models at 50 steps. We further find that its performance improves monotonically as inference steps increase, enabling both ultra-fast few-step generation and high-quality long-trajectory sampling within a single unified model. To our knowledge, Self-E is the first from-scratch, any-step text-to-image model, offering a unified framework for efficient and scalable generation.

A Autoavaliação Desbloqueia a Geração de Imagens a Partir de Texto em Qualquer Estágio

Self-Evaluation Unlocks Any-Step Text-to-Image Generation

Resumo

Support