ChatPaper.aiChatPaper

CoRe^2: Raccolta, Riflessione e Affinamento per Generare Meglio e Più Velocemente

CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

March 12, 2025
Autori: Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie
cs.AI

Abstract

Rendere i modelli generativi testo-immagine (T2I) sia veloci che di alta qualità rappresenta una direzione di ricerca promettente. Studi precedenti si sono tipicamente concentrati sul migliorare la qualità visiva delle immagini sintetizzate a scapito dell'efficienza di campionamento, oppure sull'accelerare drasticamente il campionamento senza migliorare la capacità generativa del modello di base. Inoltre, quasi tutti i metodi di inferenza non sono stati in grado di garantire prestazioni stabili simultaneamente sia sui modelli di diffusione (DMs) che sui modelli autoregressivi visivi (ARMs). In questo articolo, introduciamo un nuovo paradigma di inferenza plug-and-play, CoRe^2, che comprende tre sottoprocessi: Collect, Reflect e Refine. CoRe^2 raccoglie inizialmente le traiettorie di guida senza classificatore (CFG), per poi utilizzare i dati raccolti per addestrare un modello debole che riflette i contenuti facili da apprendere, riducendo al contempo il numero di valutazioni di funzione durante l'inferenza della metà. Successivamente, CoRe^2 impiega una guida da debole a forte per affinare l'output condizionale, migliorando così la capacità del modello di generare contenuti ad alta frequenza e realistici, difficili da catturare per il modello di base. Per quanto ne sappiamo, CoRe^2 è il primo a dimostrare sia efficienza che efficacia su un'ampia gamma di DMs, inclusi SDXL, SD3.5 e FLUX, nonché su ARMs come LlamaGen. Ha mostrato significativi miglioramenti delle prestazioni su HPD v2, Pick-of-Pic, Drawbench, GenEval e T2I-Compbench. Inoltre, CoRe^2 può essere integrato senza soluzione di continuità con lo stato dell'arte Z-Sampling, superandolo di 0.3 e 0.16 su PickScore e AES, mentre risparmia 5.64s di tempo utilizzando SD3.5. Il codice è rilasciato su https://github.com/xie-lab-ml/CoRe/tree/main.
English
Making text-to-image (T2I) generative model sample both fast and well represents a promising research direction. Previous studies have typically focused on either enhancing the visual quality of synthesized images at the expense of sampling efficiency or dramatically accelerating sampling without improving the base model's generative capacity. Moreover, nearly all inference methods have not been able to ensure stable performance simultaneously on both diffusion models (DMs) and visual autoregressive models (ARMs). In this paper, we introduce a novel plug-and-play inference paradigm, CoRe^2, which comprises three subprocesses: Collect, Reflect, and Refine. CoRe^2 first collects classifier-free guidance (CFG) trajectories, and then use collected data to train a weak model that reflects the easy-to-learn contents while reducing number of function evaluations during inference by half. Subsequently, CoRe^2 employs weak-to-strong guidance to refine the conditional output, thereby improving the model's capacity to generate high-frequency and realistic content, which is difficult for the base model to capture. To the best of our knowledge, CoRe^2 is the first to demonstrate both efficiency and effectiveness across a wide range of DMs, including SDXL, SD3.5, and FLUX, as well as ARMs like LlamaGen. It has exhibited significant performance improvements on HPD v2, Pick-of-Pic, Drawbench, GenEval, and T2I-Compbench. Furthermore, CoRe^2 can be seamlessly integrated with the state-of-the-art Z-Sampling, outperforming it by 0.3 and 0.16 on PickScore and AES, while achieving 5.64s time saving using SD3.5.Code is released at https://github.com/xie-lab-ml/CoRe/tree/main.
PDF344March 14, 2025