Extendiendo la Generación de Imágenes de Un Paso desde Etiquetas de Clase a Texto mediante Representación Discriminativa de Texto

Resumen

La generación en pocos pasos ha sido un objetivo de larga data, y los métodos recientes de generación en un solo paso, ejemplificados por MeanFlow, han logrado resultados notables. La investigación existente sobre MeanFlow se centra principalmente en la generación de clase a imagen. Sin embargo, una dirección intuitiva pero aún inexplorada es extender la condición de las etiquetas de clase fijas a entradas de texto flexibles, permitiendo una creación de contenido más rica. En comparación con las limitadas etiquetas de clase, las condiciones de texto plantean mayores desafíos a la capacidad de comprensión del modelo, lo que requiere la integración efectiva de potentes codificadores de texto en el marco de MeanFlow. Sorprendentemente, aunque incorporar condiciones de texto parece sencillo, encontramos que integrar potentes codificadores de texto basados en LLM utilizando estrategias de entrenamiento convencionales da como resultado un rendimiento insatisfactorio. Para descubrir la causa subyacente, realizamos análisis detallados y revelamos que, debido al número extremadamente limitado de pasos de refinamiento en la generación de MeanFlow, como solo un paso, se requiere que las representaciones de características de texto posean una discriminabilidad suficientemente alta. Esto también explica por qué las características de clase discretas y fácilmente distinguibles funcionan bien dentro del marco de MeanFlow. Guiados por estas ideas, aprovechamos un potente codificador de texto basado en LLM, validado para poseer las propiedades semánticas requeridas, y adaptamos el proceso de generación de MeanFlow a este marco, logrando por primera vez una síntesis eficiente condicionada por texto. Además, validamos nuestro enfoque en el modelo de difusión ampliamente utilizado, demostrando mejoras significativas en el rendimiento de la generación. Esperamos que este trabajo proporcione una referencia general y práctica para futuras investigaciones sobre la generación de MeanFlow condicionada por texto. El código está disponible en https://github.com/AMAP-ML/EMF.

English

Few-step generation has been a long-standing goal, with recent one-step generation methods exemplified by MeanFlow achieving remarkable results. Existing research on MeanFlow primarily focuses on class-to-image generation. However, an intuitive yet unexplored direction is to extend the condition from fixed class labels to flexible text inputs, enabling richer content creation. Compared to the limited class labels, text conditions pose greater challenges to the model's understanding capability, necessitating the effective integration of powerful text encoders into the MeanFlow framework. Surprisingly, although incorporating text conditions appears straightforward, we find that integrating powerful LLM-based text encoders using conventional training strategies results in unsatisfactory performance. To uncover the underlying cause, we conduct detailed analyses and reveal that, due to the extremely limited number of refinement steps in the MeanFlow generation, such as only one step, the text feature representations are required to possess sufficiently high discriminability. This also explains why discrete and easily distinguishable class features perform well within the MeanFlow framework. Guided by these insights, we leverage a powerful LLM-based text encoder validated to possess the required semantic properties and adapt the MeanFlow generation process to this framework, resulting in efficient text-conditioned synthesis for the first time. Furthermore, we validate our approach on the widely used diffusion model, demonstrating significant generation performance improvements. We hope this work provides a general and practical reference for future research on text-conditioned MeanFlow generation. The code is available at https://github.com/AMAP-ML/EMF.

Extendiendo la Generación de Imágenes de Un Paso desde Etiquetas de Clase a Texto mediante Representación Discriminativa de Texto

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Resumen

Support