ChatPaper.aiChatPaper

La autoevaluación desbloquea la generación de imágenes a partir de texto en cualquier etapa

Self-Evaluation Unlocks Any-Step Text-to-Image Generation

December 26, 2025
Autores: Xin Yu, Xiaojuan Qi, Zhengqi Li, Kai Zhang, Richard Zhang, Zhe Lin, Eli Shechtman, Tianyu Wang, Yotam Nitzan
cs.AI

Resumen

Presentamos el Self-Evaluating Model (Self-E), un novedoso enfoque de entrenamiento desde cero para generación de texto a imagen que admite inferencia en cualquier número de pasos. Self-E aprende de los datos de manera similar a un modelo de Flow Matching, mientras emplea simultáneamente un novedoso mecanismo de autoevaluación: evalúa sus propias muestras generadas utilizando sus estimaciones de puntuación actuales, funcionando efectivamente como un profesor dinámico consigo mismo. A diferencia de los modelos de difusión o flujo tradicionales, no depende únicamente de la supervisión local, que normalmente requiere muchos pasos de inferencia. A diferencia de los enfoques basados en destilación, no requiere un modelo profesor preentrenado. Esta combinación de aprendizaje local instantáneo y emparejamiento global autodirigido cierra la brecha entre los dos paradigmas, permitiendo el entrenamiento de un modelo de texto a imagen de alta calidad desde cero que sobresale incluso con conteos de pasos muy bajos. Experimentos exhaustivos en benchmarks de texto a imagen a gran escala muestran que Self-E no solo sobresale en generación con pocos pasos, sino que también es competitivo con los modelos de Flow Matching de última generación a 50 pasos. Además, encontramos que su rendimiento mejora monótonamente a medida que aumentan los pasos de inferencia, permitiendo tanto una generación ultrarrápida con pocos pasos como un muestreo de alta calidad con trayectorias largas dentro de un único modelo unificado. Hasta donde sabemos, Self-E es el primer modelo de texto a imagen entrenado desde cero y para cualquier número de pasos, que ofrece un marco unificado para una generación eficiente y escalable.
English
We introduce the Self-Evaluating Model (Self-E), a novel, from-scratch training approach for text-to-image generation that supports any-step inference. Self-E learns from data similarly to a Flow Matching model, while simultaneously employing a novel self-evaluation mechanism: it evaluates its own generated samples using its current score estimates, effectively serving as a dynamic self-teacher. Unlike traditional diffusion or flow models, it does not rely solely on local supervision, which typically necessitates many inference steps. Unlike distillation-based approaches, it does not require a pretrained teacher. This combination of instantaneous local learning and self-driven global matching bridges the gap between the two paradigms, enabling the training of a high-quality text-to-image model from scratch that excels even at very low step counts. Extensive experiments on large-scale text-to-image benchmarks show that Self-E not only excels in few-step generation, but is also competitive with state-of-the-art Flow Matching models at 50 steps. We further find that its performance improves monotonically as inference steps increase, enabling both ultra-fast few-step generation and high-quality long-trajectory sampling within a single unified model. To our knowledge, Self-E is the first from-scratch, any-step text-to-image model, offering a unified framework for efficient and scalable generation.
PDF11December 31, 2025