CoRe^2: Сбор, осмысление и уточнение для более качественной и быстрой генерации
CoRe^2: Collect, Reflect and Refine to Generate Better and Faster
March 12, 2025
Авторы: Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie
cs.AI
Аннотация
Создание текстово-изобразительных (T2I) генеративных моделей, которые бы одновременно быстро и качественно генерировали изображения, представляет собой перспективное направление исследований. Предыдущие работы обычно фокусировались либо на улучшении визуального качества синтезированных изображений за счет снижения эффективности выборки, либо на значительном ускорении выборки без улучшения генеративной способности базовой модели. Кроме того, почти все методы вывода не смогли обеспечить стабильную производительность одновременно на диффузионных моделях (DMs) и визуальных авторегрессионных моделях (ARMs). В данной статье мы представляем новую парадигму вывода "подключи и работай" — CoRe^2, которая включает три подпроцесса: Collect (Сбор), Reflect (Отражение) и Refine (Уточнение). CoRe^2 сначала собирает траектории классификаторно-свободного управления (CFG), а затем использует собранные данные для обучения слабой модели, которая отражает легко усваиваемые элементы, сокращая количество вычислений функции во время вывода вдвое. Впоследствии CoRe^2 применяет слабое-к-сильному управление для уточнения условного вывода, тем самым улучшая способность модели генерировать высокочастотный и реалистичный контент, который сложно уловить базовой модели. Насколько нам известно, CoRe^2 впервые демонстрирует как эффективность, так и производительность на широком спектре DMs, включая SDXL, SD3.5 и FLUX, а также ARMs, таких как LlamaGen. Она показала значительное улучшение производительности на HPD v2, Pick-of-Pic, Drawbench, GenEval и T2I-Compbench. Более того, CoRe^2 может быть легко интегрирована с передовым методом Z-Sampling, превосходя его на 0.3 и 0.16 по PickScore и AES, при этом экономя 5.64 секунд при использовании SD3.5. Код доступен по адресу: https://github.com/xie-lab-ml/CoRe/tree/main.
English
Making text-to-image (T2I) generative model sample both fast and well
represents a promising research direction. Previous studies have typically
focused on either enhancing the visual quality of synthesized images at the
expense of sampling efficiency or dramatically accelerating sampling without
improving the base model's generative capacity. Moreover, nearly all inference
methods have not been able to ensure stable performance simultaneously on both
diffusion models (DMs) and visual autoregressive models (ARMs). In this paper,
we introduce a novel plug-and-play inference paradigm, CoRe^2, which comprises
three subprocesses: Collect, Reflect, and Refine. CoRe^2 first collects
classifier-free guidance (CFG) trajectories, and then use collected data to
train a weak model that reflects the easy-to-learn contents while reducing
number of function evaluations during inference by half. Subsequently, CoRe^2
employs weak-to-strong guidance to refine the conditional output, thereby
improving the model's capacity to generate high-frequency and realistic
content, which is difficult for the base model to capture. To the best of our
knowledge, CoRe^2 is the first to demonstrate both efficiency and effectiveness
across a wide range of DMs, including SDXL, SD3.5, and FLUX, as well as ARMs
like LlamaGen. It has exhibited significant performance improvements on HPD v2,
Pick-of-Pic, Drawbench, GenEval, and T2I-Compbench. Furthermore, CoRe^2 can be
seamlessly integrated with the state-of-the-art Z-Sampling, outperforming it by
0.3 and 0.16 on PickScore and AES, while achieving 5.64s time saving using
SD3.5.Code is released at https://github.com/xie-lab-ml/CoRe/tree/main.Summary
AI-Generated Summary