Самооценка открывает путь к генерации изображений из текста на любом этапе.
Self-Evaluation Unlocks Any-Step Text-to-Image Generation
December 26, 2025
Авторы: Xin Yu, Xiaojuan Qi, Zhengqi Li, Kai Zhang, Richard Zhang, Zhe Lin, Eli Shechtman, Tianyu Wang, Yotam Nitzan
cs.AI
Аннотация
Мы представляем Self-Evaluating Model (Self-E) — новый подход к обучению генерации изображений по тексту «с нуля», поддерживающий вывод за любое количество шагов. Self-E обучается на данных аналогично модели Flow Matching, одновременно используя новый механизм самооценки: она оценивает собственные сгенерированные примеры с помощью текущих оценок скоринга, эффективно выступая в роли динамического самообучателя. В отличие от традиционных диффузионных моделей или моделей потоков, она не полагается исключительно на локальный надзор, который обычно требует множества шагов вывода. В отличие от подходов на основе дистилляции, она не нуждается в предварительно обученном учителе. Эта комбинация мгновенного локального обучения и самодостаточного глобального согласования устраняет разрыв между двумя парадигмами, позволяя обучать высококачественную тексто-визуальную модель с нуля, которая превосходит даже при очень малом количестве шагов. Масштабные эксперименты на крупных бенчмарках генерации по тексту показывают, что Self-E не только преуспевает в генерации за несколько шагов, но и конкурирует с передовыми моделями Flow Matching при 50 шагах. Мы также обнаружили, что её производительность монотонно улучшается с увеличением числа шагов вывода, что позволяет осуществлять как сверхбыструю генерацию за несколько шагов, так и высококачественную выборку по длинной траектории в рамках единой унифицированной модели. Насколько нам известно, Self-E является первой тексто-визуальной моделью «с нуля» с произвольным количеством шагов, предлагающей унифицированную framework для эффективной и масштабируемой генерации.
English
We introduce the Self-Evaluating Model (Self-E), a novel, from-scratch training approach for text-to-image generation that supports any-step inference. Self-E learns from data similarly to a Flow Matching model, while simultaneously employing a novel self-evaluation mechanism: it evaluates its own generated samples using its current score estimates, effectively serving as a dynamic self-teacher. Unlike traditional diffusion or flow models, it does not rely solely on local supervision, which typically necessitates many inference steps. Unlike distillation-based approaches, it does not require a pretrained teacher. This combination of instantaneous local learning and self-driven global matching bridges the gap between the two paradigms, enabling the training of a high-quality text-to-image model from scratch that excels even at very low step counts. Extensive experiments on large-scale text-to-image benchmarks show that Self-E not only excels in few-step generation, but is also competitive with state-of-the-art Flow Matching models at 50 steps. We further find that its performance improves monotonically as inference steps increase, enabling both ultra-fast few-step generation and high-quality long-trajectory sampling within a single unified model. To our knowledge, Self-E is the first from-scratch, any-step text-to-image model, offering a unified framework for efficient and scalable generation.