Erweiterung der Ein-Schritt-Bildgenerierung von Klassenlabels auf Text durch diskriminative Textrepräsentation

Zusammenfassung

Die Erzeugung in wenigen Schritten ist seit langem ein Ziel, wobei aktuelle Ein-Schritt-Generierungsmethoden wie MeanFlow bemerkenswerte Ergebnisse erzielen. Bisher konzentriert sich die Forschung zu MeanFlow hauptsächlich auf die Klassenzu-Bild-Generierung. Eine intuitive, aber unerforschte Richtung ist jedoch, die Bedingung von festen Klassenlabels auf flexible Texteingaben zu erweitern, um eine inhaltsreichere Erstellung zu ermöglichen. Im Vergleich zu begrenzten Klassenlabels stellen Textbedingungen größere Herausforderungen an das Verständnisvermögen des Modells, was die effektive Integration leistungsstarker Textencoder in das MeanFlow-Framework erfordert. Überraschenderweise führt – obwohl die Einbeziehung von Textbedingungen einfach erscheint – die Integration leistungsfähiger LLM-basierter Textencoder mit herkömmlichen Trainingsstrategien zu unbefriedigenden Ergebnissen. Um die zugrunde liegende Ursache zu ermitteln, führen wir detaillierte Analysen durch und zeigen, dass aufgrund der extrem begrenzten Anzahl von Verfeinerungsschritten in der MeanFlow-Generierung (z.B. nur einem Schritt) die Textmerkmalrepräsentationen eine ausreichend hohe Diskriminierungsfähigkeit besitzen müssen. Dies erklärt auch, warum diskrete und leicht unterscheidbare Klassenmerkmale im MeanFlow-Framework gut funktionieren. Aufbauend auf diesen Erkenntnissen nutzen wir einen leistungsstarken LLM-basierten Textencoder, der nachweislich die erforderlichen semantischen Eigenschaften besitzt, und passen den MeanFlow-Generierungsprozess an dieses Framework an, wodurch erstmals eine effiziente textkonditionierte Synthese ermöglicht wird. Darüber hinaus validieren wir unseren Ansatz am weit verbreiteten Diffusionsmodell und zeigen signifikante Verbesserungen der Generierungsleistung. Wir hoffen, dass diese Arbeit eine allgemeine und praktische Referenz für die zukünftige Forschung zur textkonditionierten MeanFlow-Generierung bietet. Der Code ist verfügbar unter https://github.com/AMAP-ML/EMF.

English

Few-step generation has been a long-standing goal, with recent one-step generation methods exemplified by MeanFlow achieving remarkable results. Existing research on MeanFlow primarily focuses on class-to-image generation. However, an intuitive yet unexplored direction is to extend the condition from fixed class labels to flexible text inputs, enabling richer content creation. Compared to the limited class labels, text conditions pose greater challenges to the model's understanding capability, necessitating the effective integration of powerful text encoders into the MeanFlow framework. Surprisingly, although incorporating text conditions appears straightforward, we find that integrating powerful LLM-based text encoders using conventional training strategies results in unsatisfactory performance. To uncover the underlying cause, we conduct detailed analyses and reveal that, due to the extremely limited number of refinement steps in the MeanFlow generation, such as only one step, the text feature representations are required to possess sufficiently high discriminability. This also explains why discrete and easily distinguishable class features perform well within the MeanFlow framework. Guided by these insights, we leverage a powerful LLM-based text encoder validated to possess the required semantic properties and adapt the MeanFlow generation process to this framework, resulting in efficient text-conditioned synthesis for the first time. Furthermore, we validate our approach on the widely used diffusion model, demonstrating significant generation performance improvements. We hope this work provides a general and practical reference for future research on text-conditioned MeanFlow generation. The code is available at https://github.com/AMAP-ML/EMF.

Erweiterung der Ein-Schritt-Bildgenerierung von Klassenlabels auf Text durch diskriminative Textrepräsentation

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Zusammenfassung

Support