ChatPaper.aiChatPaper

CoRe^2: 더 나은 결과를 더 빠르게 생성하기 위한 수집, 반영 및 정제

CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

March 12, 2025
저자: Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie
cs.AI

초록

텍스트-이미지(T2I) 생성 모델이 빠르고 우수한 샘플을 생성하는 것은 유망한 연구 방향입니다. 기존 연구들은 일반적으로 샘플링 효율성을 희생하면서 합성된 이미지의 시각적 품질을 향상시키거나, 기본 모델의 생성 능력을 개선하지 않고 샘플링 속도를 극적으로 가속화하는 데 초점을 맞추었습니다. 또한, 거의 모든 추론 방법들은 확산 모델(DMs)과 시각적 자기회귀 모델(ARMs) 모두에서 동시에 안정적인 성능을 보장하지 못했습니다. 본 논문에서는 Collect, Reflect, Refine이라는 세 가지 하위 프로세스로 구성된 새로운 플러그 앤 플레이 추론 패러다임인 CoRe^2를 소개합니다. CoRe^2는 먼저 classifier-free guidance(CFG) 궤적을 수집한 다음, 수집된 데이터를 사용하여 학습하기 쉬운 내용을 반영하는 약한 모델을 훈련시키면서 추론 중 함수 평가 횟수를 절반으로 줄입니다. 이후, CoRe^2는 약한 모델에서 강한 모델로의 guidance를 사용하여 조건부 출력을 정제함으로써, 기본 모델이 포착하기 어려운 고주파 및 사실적인 내용을 생성하는 모델의 능력을 향상시킵니다. 우리가 아는 한, CoRe^2는 SDXL, SD3.5, FLUX와 같은 다양한 DMs뿐만 아니라 LlamaGen과 같은 ARMs에서도 효율성과 효과성을 동시에 입증한 최초의 방법입니다. CoRe^2는 HPD v2, Pick-of-Pic, Drawbench, GenEval, T2I-Compbench에서 상당한 성능 향상을 보였습니다. 또한, CoRe^2는 최첨단 Z-Sampling과 원활하게 통합될 수 있으며, SD3.5를 사용하여 PickScore와 AES에서 각각 0.3과 0.16의 성능 향상을 달성하면서 5.64초의 시간 절약을 이루었습니다. 코드는 https://github.com/xie-lab-ml/CoRe/tree/main에서 공개되었습니다.
English
Making text-to-image (T2I) generative model sample both fast and well represents a promising research direction. Previous studies have typically focused on either enhancing the visual quality of synthesized images at the expense of sampling efficiency or dramatically accelerating sampling without improving the base model's generative capacity. Moreover, nearly all inference methods have not been able to ensure stable performance simultaneously on both diffusion models (DMs) and visual autoregressive models (ARMs). In this paper, we introduce a novel plug-and-play inference paradigm, CoRe^2, which comprises three subprocesses: Collect, Reflect, and Refine. CoRe^2 first collects classifier-free guidance (CFG) trajectories, and then use collected data to train a weak model that reflects the easy-to-learn contents while reducing number of function evaluations during inference by half. Subsequently, CoRe^2 employs weak-to-strong guidance to refine the conditional output, thereby improving the model's capacity to generate high-frequency and realistic content, which is difficult for the base model to capture. To the best of our knowledge, CoRe^2 is the first to demonstrate both efficiency and effectiveness across a wide range of DMs, including SDXL, SD3.5, and FLUX, as well as ARMs like LlamaGen. It has exhibited significant performance improvements on HPD v2, Pick-of-Pic, Drawbench, GenEval, and T2I-Compbench. Furthermore, CoRe^2 can be seamlessly integrated with the state-of-the-art Z-Sampling, outperforming it by 0.3 and 0.16 on PickScore and AES, while achieving 5.64s time saving using SD3.5.Code is released at https://github.com/xie-lab-ml/CoRe/tree/main.

Summary

AI-Generated Summary

PDF344March 14, 2025