Адаптация для сверхвысокого разрешения с легкостью
Ultra-Resolution Adaptation with Ease
March 20, 2025
Авторы: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI
Аннотация
Модели диффузии для генерации изображений из текста достигли значительного прогресса в последние годы. Однако обучение моделей для создания изображений с высоким разрешением остается сложной задачей, особенно при ограниченных данных для обучения и вычислительных ресурсах. В данной статье мы исследуем эту практическую проблему с двух ключевых перспектив: эффективности данных и параметров, и предлагаем набор основных принципов для адаптации к сверхвысокому разрешению, названный URAE. В аспекте эффективности данных мы теоретически и эмпирически демонстрируем, что синтетические данные, сгенерированные некоторыми моделями-учителями, могут значительно ускорить сходимость обучения. В аспекте эффективности параметров мы обнаруживаем, что настройка незначительных компонентов матриц весов превосходит широко используемые низкоранговые адаптеры, когда синтетические данные недоступны, обеспечивая существенный прирост производительности при сохранении эффективности. Кроме того, для моделей, использующих дистилляцию с управлением, таких как FLUX, мы показываем, что отключение классификатор-независимого управления, то есть установка масштаба управления на 1 во время адаптации, является критически важным для достижения удовлетворительной производительности. Многочисленные эксперименты подтверждают, что URAE достигает сопоставимой производительности в генерации 2K с современными закрытыми моделями, такими как FLUX1.1 [Pro] Ultra, используя всего 3K образцов и 2K итераций, одновременно устанавливая новые стандарты для генерации с разрешением 4K. Код доступен {здесь}https://github.com/Huage001/URAE.
English
Text-to-image diffusion models have achieved remarkable progress in recent
years. However, training models for high-resolution image generation remains
challenging, particularly when training data and computational resources are
limited. In this paper, we explore this practical problem from two key
perspectives: data and parameter efficiency, and propose a set of key
guidelines for ultra-resolution adaptation termed URAE. For data
efficiency, we theoretically and empirically demonstrate that synthetic data
generated by some teacher models can significantly promote training
convergence. For parameter efficiency, we find that tuning minor components of
the weight matrices outperforms widely-used low-rank adapters when synthetic
data are unavailable, offering substantial performance gains while maintaining
efficiency. Additionally, for models leveraging guidance distillation, such as
FLUX, we show that disabling classifier-free guidance, i.e., setting
the guidance scale to 1 during adaptation, is crucial for satisfactory
performance. Extensive experiments validate that URAE achieves comparable
2K-generation performance to state-of-the-art closed-source models like FLUX1.1
[Pro] Ultra with only 3K samples and 2K iterations, while setting new
benchmarks for 4K-resolution generation. Codes are available
https://github.com/Huage001/URAE{here}.Summary
AI-Generated Summary