Extension de la génération d'images en une étape des étiquettes de classe au texte via la représentation textuelle discriminative

Résumé

La génération en peu d'étapes constitue un objectif de longue date, les méthodes récentes de génération en une étape comme MeanFlow obtenant des résultats remarquables. Les recherches existantes sur MeanFlow se concentrent principalement sur la génération classe-vers-image. Cependant, une direction intuitive mais inexplorée consiste à étendre la condition d'étiquettes de classe fixes à des entrées textuelles flexibles, permettant une création de contenu plus riche. Comparées aux étiquettes de classe limitées, les conditions textuelles posent de plus grands défis à la capacité de compréhension du modèle, nécessitant l'intégration efficace de puissants encodeurs textuels dans le cadre MeanFlow. Étonnamment, bien que l'incorporation de conditions textuelles semble simple, nous constatons que l'intégration d'encodeurs textuels puissants basés sur des LLM en utilisant des stratégies d'entraînement conventionnelles donne des performances insatisfaisantes. Pour identifier la cause sous-jacente, nous menons des analyses détaillées et révélons qu'en raison du nombre extrêmement limité d'étapes de raffinement dans la génération MeanFlow, comme une seule étape, les représentations des caractéristiques textuelles doivent posséder une discriminabilité suffisamment élevée. Cela explique également pourquoi les caractéristiques de classe discrètes et facilement distinguables fonctionnent bien dans le cadre MeanFlow. Guidés par ces observations, nous utilisons un puissant encodeur textuel basé sur un LLM, validé pour posséder les propriétés sémantiques requises, et adaptons le processus de génération MeanFlow à ce cadre, permettant pour la première fois une synthèse efficace conditionnée par le texte. De plus, nous validons notre approche sur le modèle de diffusion largement utilisé, démontrant des améliorations significatives des performances de génération. Nous espérons que ce travail fournira une référence générale et pratique pour les futures recherches sur la génération MeanFlow conditionnée par le texte. Le code est disponible à l'adresse https://github.com/AMAP-ML/EMF.

English

Few-step generation has been a long-standing goal, with recent one-step generation methods exemplified by MeanFlow achieving remarkable results. Existing research on MeanFlow primarily focuses on class-to-image generation. However, an intuitive yet unexplored direction is to extend the condition from fixed class labels to flexible text inputs, enabling richer content creation. Compared to the limited class labels, text conditions pose greater challenges to the model's understanding capability, necessitating the effective integration of powerful text encoders into the MeanFlow framework. Surprisingly, although incorporating text conditions appears straightforward, we find that integrating powerful LLM-based text encoders using conventional training strategies results in unsatisfactory performance. To uncover the underlying cause, we conduct detailed analyses and reveal that, due to the extremely limited number of refinement steps in the MeanFlow generation, such as only one step, the text feature representations are required to possess sufficiently high discriminability. This also explains why discrete and easily distinguishable class features perform well within the MeanFlow framework. Guided by these insights, we leverage a powerful LLM-based text encoder validated to possess the required semantic properties and adapt the MeanFlow generation process to this framework, resulting in efficient text-conditioned synthesis for the first time. Furthermore, we validate our approach on the widely used diffusion model, demonstrating significant generation performance improvements. We hope this work provides a general and practical reference for future research on text-conditioned MeanFlow generation. The code is available at https://github.com/AMAP-ML/EMF.

Extension de la génération d'images en une étape des étiquettes de classe au texte via la représentation textuelle discriminative

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Résumé

Support