Расширение одноэтапной генерации изображений от меток классов к тексту через дискриминативное текстовое представление

Аннотация

Многошаговая генерация долгое время оставалась важной целью, при этом недавние методы одношаговой генерации, такие как MeanFlow, демонстрируют выдающиеся результаты. Существующие исследования MeanFlow в основном сосредоточены на генерации изображений по классам. Однако интуитивно понятным, но неисследованным направлением является расширение условия с фиксированных меток классов до гибких текстовых описаний, что позволяет создавать более разнообразный контент. По сравнению с ограниченными метками классов текстовые условия предъявляют более высокие требования к способности модели к пониманию, что требует эффективной интеграции мощных текстовых энкодеров в структуру MeanFlow. Несмотря на кажущуюся простоту включения текстовых условий, мы обнаружили, что использование традиционных стратегий обучения для интеграции мощных текстовых энкодеров на основе больших языковых моделей приводит к неудовлетворительной производительности. Чтобы выявить первопричину, мы провели детальный анализ и установили, что из-за крайне ограниченного числа шагов уточнения в генерации MeanFlow (например, всего одного шага) текстовые feature-представления должны обладать достаточно высокой различимостью. Это также объясняет, почему дискретные и легко различимые признаки классов хорошо работают в рамках MeanFlow. Руководствуясь этими выводами, мы используем проверенный мощный текстовый энкодер на основе LLM, обладающий необходимыми семантическими свойствами, и адаптируем процесс генерации MeanFlow к данной структуре, впервые получив эффективный синтез по текстовому условию. Кроме того, мы проверяем наш подход на широко используемой диффузионной модели, демонстрируя значительное улучшение производительности генерации. Мы надеемся, что эта работа послужит практическим ориентиром для будущих исследований тексто-обусловленной генерации MeanFlow. Код доступен по адресу https://github.com/AMAP-ML/EMF.

English

Few-step generation has been a long-standing goal, with recent one-step generation methods exemplified by MeanFlow achieving remarkable results. Existing research on MeanFlow primarily focuses on class-to-image generation. However, an intuitive yet unexplored direction is to extend the condition from fixed class labels to flexible text inputs, enabling richer content creation. Compared to the limited class labels, text conditions pose greater challenges to the model's understanding capability, necessitating the effective integration of powerful text encoders into the MeanFlow framework. Surprisingly, although incorporating text conditions appears straightforward, we find that integrating powerful LLM-based text encoders using conventional training strategies results in unsatisfactory performance. To uncover the underlying cause, we conduct detailed analyses and reveal that, due to the extremely limited number of refinement steps in the MeanFlow generation, such as only one step, the text feature representations are required to possess sufficiently high discriminability. This also explains why discrete and easily distinguishable class features perform well within the MeanFlow framework. Guided by these insights, we leverage a powerful LLM-based text encoder validated to possess the required semantic properties and adapt the MeanFlow generation process to this framework, resulting in efficient text-conditioned synthesis for the first time. Furthermore, we validate our approach on the widely used diffusion model, demonstrating significant generation performance improvements. We hope this work provides a general and practical reference for future research on text-conditioned MeanFlow generation. The code is available at https://github.com/AMAP-ML/EMF.

Расширение одноэтапной генерации изображений от меток классов к тексту через дискриминативное текстовое представление

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Аннотация

Support