Extensão da Geração de Imagem em Uma Etapa a Partir de Rótulos de Classe para Texto via Representação Textual Discriminativa

Resumo

A geração em poucos passos tem sido um objetivo de longa data, com métodos recentes de geração em um único passo, exemplificados pelo MeanFlow, alcançando resultados notáveis. A pesquisa existente sobre o MeanFlow concentra-se principalmente na geração de classe para imagem. No entanto, uma direção intuitiva e ainda inexplorada é estender a condição de rótulos de classe fixos para entradas de texto flexíveis, permitindo uma criação de conteúdo mais rica. Em comparação com os rótulos de classe limitados, as condições de texto impõem desafios maiores à capacidade de compreensão do modelo, exigindo a integração eficaz de poderosos codificadores de texto na estrutura do MeanFlow. Surpreendentemente, embora a incorporação de condições de texto pareça direta, descobrimos que a integração de poderosos codificadores de texto baseados em LLM usando estratégias de treinamento convencionais resulta em desempenho insatisfatório. Para descobrir a causa subjacente, realizamos análises detalhadas e revelamos que, devido ao número extremamente limitado de etapas de refinamento na geração do MeanFlow, como apenas uma etapa, as representações de características de texto são obrigadas a possuir uma discriminabilidade suficientemente alta. Isso também explica por que características de classe discretas e facilmente distinguíveis têm um bom desempenho dentro da estrutura do MeanFlow. Guiados por essas percepções, aproveitamos um poderoso codificador de texto baseado em LLM, validado para possuir as propriedades semânticas necessárias, e adaptamos o processo de geração do MeanFlow a essa estrutura, resultando em uma síntese eficiente condicionada por texto pela primeira vez. Além disso, validamos nossa abordagem no modelo de difusão amplamente utilizado, demonstrando melhorias significativas no desempenho da geração. Esperamos que este trabalho forneça uma referência geral e prática para pesquisas futuras sobre geração de MeanFlow condicionada por texto. O código está disponível em https://github.com/AMAP-ML/EMF.

English

Few-step generation has been a long-standing goal, with recent one-step generation methods exemplified by MeanFlow achieving remarkable results. Existing research on MeanFlow primarily focuses on class-to-image generation. However, an intuitive yet unexplored direction is to extend the condition from fixed class labels to flexible text inputs, enabling richer content creation. Compared to the limited class labels, text conditions pose greater challenges to the model's understanding capability, necessitating the effective integration of powerful text encoders into the MeanFlow framework. Surprisingly, although incorporating text conditions appears straightforward, we find that integrating powerful LLM-based text encoders using conventional training strategies results in unsatisfactory performance. To uncover the underlying cause, we conduct detailed analyses and reveal that, due to the extremely limited number of refinement steps in the MeanFlow generation, such as only one step, the text feature representations are required to possess sufficiently high discriminability. This also explains why discrete and easily distinguishable class features perform well within the MeanFlow framework. Guided by these insights, we leverage a powerful LLM-based text encoder validated to possess the required semantic properties and adapt the MeanFlow generation process to this framework, resulting in efficient text-conditioned synthesis for the first time. Furthermore, we validate our approach on the widely used diffusion model, demonstrating significant generation performance improvements. We hope this work provides a general and practical reference for future research on text-conditioned MeanFlow generation. The code is available at https://github.com/AMAP-ML/EMF.

Extensão da Geração de Imagem em Uma Etapa a Partir de Rótulos de Classe para Texto via Representação Textual Discriminativa

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Resumo

Support