ChatPaper.aiChatPaper

CoRe^2: Verzamel, Reflecteer en Verfijn om Beter en Sneller te Genereren

CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

March 12, 2025
Auteurs: Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie
cs.AI

Samenvatting

Het maken van tekst-naar-beeld (T2I) generatieve modellen die zowel snel als goed kunnen samplen, vertegenwoordigt een veelbelovende onderzoeksrichting. Eerdere studies hebben zich doorgaans gericht op het verbeteren van de visuele kwaliteit van gesynthetiseerde beelden ten koste van de samplingefficiëntie, of op het drastisch versnellen van het samplingproces zonder de generatieve capaciteit van het basismodel te verbeteren. Bovendien zijn bijna alle inferentiemethoden niet in staat gebleken om stabiele prestaties te garanderen op zowel diffusiemodellen (DMs) als visuele autoregressieve modellen (ARMs). In dit artikel introduceren we een nieuwe plug-and-play inferentieparadigma, CoRe^2, dat bestaat uit drie subprocessen: Collect, Reflect en Refine. CoRe^2 verzamelt eerst classifier-free guidance (CFG) trajecten, en gebruikt vervolgens de verzamelde data om een zwak model te trainen dat de gemakkelijk te leren inhoud reflecteert, terwijl het aantal functie-evaluaties tijdens de inferentie wordt gehalveerd. Vervolgens gebruikt CoRe^2 weak-to-strong guidance om de conditionele output te verfijnen, waardoor het vermogen van het model om hoogfrequente en realistische inhoud te genereren wordt verbeterd, wat moeilijk is voor het basismodel om vast te leggen. Voor zover wij weten, is CoRe^2 de eerste die zowel efficiëntie als effectiviteit aantoont over een breed scala aan DMs, waaronder SDXL, SD3.5 en FLUX, evenals ARMs zoals LlamaGen. Het heeft aanzienlijke prestatieverbeteringen laten zien op HPD v2, Pick-of-Pic, Drawbench, GenEval en T2I-Compbench. Bovendien kan CoRe^2 naadloos worden geïntegreerd met de state-of-the-art Z-Sampling, waarbij het deze overtreft met 0.3 en 0.16 op PickScore en AES, terwijl het een tijdsbesparing van 5.64 seconden bereikt met SD3.5. De code is vrijgegeven op https://github.com/xie-lab-ml/CoRe/tree/main.
English
Making text-to-image (T2I) generative model sample both fast and well represents a promising research direction. Previous studies have typically focused on either enhancing the visual quality of synthesized images at the expense of sampling efficiency or dramatically accelerating sampling without improving the base model's generative capacity. Moreover, nearly all inference methods have not been able to ensure stable performance simultaneously on both diffusion models (DMs) and visual autoregressive models (ARMs). In this paper, we introduce a novel plug-and-play inference paradigm, CoRe^2, which comprises three subprocesses: Collect, Reflect, and Refine. CoRe^2 first collects classifier-free guidance (CFG) trajectories, and then use collected data to train a weak model that reflects the easy-to-learn contents while reducing number of function evaluations during inference by half. Subsequently, CoRe^2 employs weak-to-strong guidance to refine the conditional output, thereby improving the model's capacity to generate high-frequency and realistic content, which is difficult for the base model to capture. To the best of our knowledge, CoRe^2 is the first to demonstrate both efficiency and effectiveness across a wide range of DMs, including SDXL, SD3.5, and FLUX, as well as ARMs like LlamaGen. It has exhibited significant performance improvements on HPD v2, Pick-of-Pic, Drawbench, GenEval, and T2I-Compbench. Furthermore, CoRe^2 can be seamlessly integrated with the state-of-the-art Z-Sampling, outperforming it by 0.3 and 0.16 on PickScore and AES, while achieving 5.64s time saving using SD3.5.Code is released at https://github.com/xie-lab-ml/CoRe/tree/main.

Summary

AI-Generated Summary

PDF344March 14, 2025