ChatPaper.aiChatPaper

Практическое руководство по многоступенчатой дистилляции для генерации изображений по текстовому описанию

Few-Step Distillation for Text-to-Image Generation: A Practical Guide

December 15, 2025
Авторы: Yifan Pu, Yizeng Han, Zhiwei Tang, Jiasheng Tang, Fan Wang, Bohan Zhuang, Gao Huang
cs.AI

Аннотация

Диффузионная дистилляция значительно ускорила синтез изображений с условными классами, однако ее применимость к генерации изображений по произвольным текстовым описаниям (T2I) остается неясной. Мы представляем первое систематическое исследование, адаптирующее и сравнивающее передовые методы дистилляции на мощной T2I-модели учителя FLUX.1-lite. Объединив существующие методы в единую схему, мы выявляем ключевые препятствия, возникающие при переходе от дискретных меток классов к свободным языковым промптам. Помимо углубленного методологического анализа, мы предлагаем практические рекомендации по масштабированию входных данных, архитектуре сети и гиперпараметрам, сопровождаемые открытой реализацией и предобученными студенческими моделями. Наши результаты закладывают прочную основу для внедрения быстрых, высокоточных и ресурсоэффективных диффузионных генераторов в реальные T2I-приложения. Код доступен по адресу github.com/alibaba-damo-academy/T2I-Distill.
English
Diffusion distillation has dramatically accelerated class-conditional image synthesis, but its applicability to open-ended text-to-image (T2I) generation is still unclear. We present the first systematic study that adapts and compares state-of-the-art distillation techniques on a strong T2I teacher model, FLUX.1-lite. By casting existing methods into a unified framework, we identify the key obstacles that arise when moving from discrete class labels to free-form language prompts. Beyond a thorough methodological analysis, we offer practical guidelines on input scaling, network architecture, and hyperparameters, accompanied by an open-source implementation and pretrained student models. Our findings establish a solid foundation for deploying fast, high-fidelity, and resource-efficient diffusion generators in real-world T2I applications. Code is available on github.com/alibaba-damo-academy/T2I-Distill.
PDF42December 17, 2025