초고해상도 적응을 손쉽게
Ultra-Resolution Adaptation with Ease
March 20, 2025
저자: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI
초록
텍스트-이미지 확산 모델은 최근 몇 년 동안 놀라운 발전을 이루었습니다. 그러나 고해상도 이미지 생성을 위한 모델 훈련은 여전히 어려운 과제로 남아 있으며, 특히 훈련 데이터와 계산 자원이 제한된 상황에서는 더욱 그러합니다. 본 논문에서는 이러한 실질적인 문제를 데이터 효율성과 파라미터 효율성이라는 두 가지 핵심 관점에서 탐구하고, 초고해상도 적응을 위한 일련의 핵심 지침인 URAE(Ultra-Resolution Adaptation Efficiency)를 제안합니다. 데이터 효율성 측면에서는, 일부 교사 모델에 의해 생성된 합성 데이터가 훈련 수렴을 크게 촉진할 수 있음을 이론적 및 실증적으로 입증합니다. 파라미터 효율성 측면에서는, 합성 데이터를 사용할 수 없는 경우 가중치 행렬의 작은 구성 요소를 조정하는 것이 널리 사용되는 저순위 어댑터를 능가하며, 효율성을 유지하면서 상당한 성능 향상을 제공함을 발견했습니다. 또한, FLUX와 같은 지도 증류를 활용하는 모델의 경우, 적응 과정에서 분류자 없는 지도를 비활성화(즉, 지도 스케일을 1로 설정)하는 것이 만족스러운 성능을 위해 중요함을 보여줍니다. 광범위한 실험을 통해 URAE가 단 3,000개의 샘플과 2,000회의 반복만으로도 FLUX1.1 [Pro] Ultra와 같은 최첨단 폐쇄형 모델과 비슷한 2K 생성 성능을 달성하며, 4K 해상도 생성에서 새로운 벤치마크를 설정함을 검증했습니다. 코드는 https://github.com/Huage001/URAE에서 확인할 수 있습니다.
English
Text-to-image diffusion models have achieved remarkable progress in recent
years. However, training models for high-resolution image generation remains
challenging, particularly when training data and computational resources are
limited. In this paper, we explore this practical problem from two key
perspectives: data and parameter efficiency, and propose a set of key
guidelines for ultra-resolution adaptation termed URAE. For data
efficiency, we theoretically and empirically demonstrate that synthetic data
generated by some teacher models can significantly promote training
convergence. For parameter efficiency, we find that tuning minor components of
the weight matrices outperforms widely-used low-rank adapters when synthetic
data are unavailable, offering substantial performance gains while maintaining
efficiency. Additionally, for models leveraging guidance distillation, such as
FLUX, we show that disabling classifier-free guidance, i.e., setting
the guidance scale to 1 during adaptation, is crucial for satisfactory
performance. Extensive experiments validate that URAE achieves comparable
2K-generation performance to state-of-the-art closed-source models like FLUX1.1
[Pro] Ultra with only 3K samples and 2K iterations, while setting new
benchmarks for 4K-resolution generation. Codes are available
https://github.com/Huage001/URAE{here}.Summary
AI-Generated Summary