Estensione della generazione di immagini one-step da etichette di classe al testo tramite rappresentazione testuale discriminativa

Abstract

La generazione in pochi passi è da tempo un obiettivo ambito, con i recenti metodi di generazione one-step, come MeanFlow, che hanno ottenuto risultati notevoli. La ricerca esistente su MeanFlow si concentra principalmente sulla generazione da classe a immagine. Tuttavia, una direzione intuitiva ma ancora inesplorata è estendere la condizione dalle etichette di classe fisse a input testuali flessibili, consentendo una creazione di contenuti più ricca. Rispetto alle limitate etichette di classe, le condizioni testuali pongono sfide maggiori alla capacità di comprensione del modello, richiedendo l'integrazione efficace di potenti encoder testuali nel framework MeanFlow. Sorprendentemente, sebbene l'incorporazione di condizioni testuali appaia semplice, abbiamo riscontrato che integrare potenti encoder testuali basati su LLM utilizzando strategie di addestramento convenzionali produce prestazioni insoddisfacenti. Per scoprire la causa sottostante, abbiamo condotto analisi dettagliate e rivelato che, a causa del numero estremamente limitato di passi di raffinamento nella generazione MeanFlow, come ad esempio un solo passo, le rappresentazioni delle feature testuali devono possedere una sufficiente alta discriminabilità. Questo spiega anche perché feature di classe discrete e facilmente distinguibili performano bene all'interno del framework MeanFlow. Guidati da queste intuizioni, sfruttiamo un potente encoder testuale basato su LLM, verificato per possedere le proprietà semantiche richieste, e adattiamo il processo di generazione MeanFlow a questo framework, ottenendo per la prima volta una sintesi efficiente condizionata dal testo. Inoltre, convalidiamo il nostro approccio sul diffuso modello di diffusione, dimostrando significativi miglioramenti delle prestazioni generative. Speriamo che questo lavoro fornisca un riferimento generale e pratico per la futura ricerca sulla generazione MeanFlow condizionata dal testo. Il codice è disponibile all'indirizzo https://github.com/AMAP-ML/EMF.

English

Few-step generation has been a long-standing goal, with recent one-step generation methods exemplified by MeanFlow achieving remarkable results. Existing research on MeanFlow primarily focuses on class-to-image generation. However, an intuitive yet unexplored direction is to extend the condition from fixed class labels to flexible text inputs, enabling richer content creation. Compared to the limited class labels, text conditions pose greater challenges to the model's understanding capability, necessitating the effective integration of powerful text encoders into the MeanFlow framework. Surprisingly, although incorporating text conditions appears straightforward, we find that integrating powerful LLM-based text encoders using conventional training strategies results in unsatisfactory performance. To uncover the underlying cause, we conduct detailed analyses and reveal that, due to the extremely limited number of refinement steps in the MeanFlow generation, such as only one step, the text feature representations are required to possess sufficiently high discriminability. This also explains why discrete and easily distinguishable class features perform well within the MeanFlow framework. Guided by these insights, we leverage a powerful LLM-based text encoder validated to possess the required semantic properties and adapt the MeanFlow generation process to this framework, resulting in efficient text-conditioned synthesis for the first time. Furthermore, we validate our approach on the widely used diffusion model, demonstrating significant generation performance improvements. We hope this work provides a general and practical reference for future research on text-conditioned MeanFlow generation. The code is available at https://github.com/AMAP-ML/EMF.

Estensione della generazione di immagini one-step da etichette di classe al testo tramite rappresentazione testuale discriminativa

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Abstract

Support