ChatPaper.aiChatPaper

Адаптация для сверхвысокого разрешения с легкостью

Ultra-Resolution Adaptation with Ease

March 20, 2025
Авторы: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI

Аннотация

Модели диффузии для генерации изображений из текста достигли значительного прогресса в последние годы. Однако обучение моделей для создания изображений с высоким разрешением остается сложной задачей, особенно при ограниченных данных для обучения и вычислительных ресурсах. В данной статье мы исследуем эту практическую проблему с двух ключевых перспектив: эффективности данных и параметров, и предлагаем набор основных принципов для адаптации к сверхвысокому разрешению, названный URAE. В аспекте эффективности данных мы теоретически и эмпирически демонстрируем, что синтетические данные, сгенерированные некоторыми моделями-учителями, могут значительно ускорить сходимость обучения. В аспекте эффективности параметров мы обнаруживаем, что настройка незначительных компонентов матриц весов превосходит широко используемые низкоранговые адаптеры, когда синтетические данные недоступны, обеспечивая существенный прирост производительности при сохранении эффективности. Кроме того, для моделей, использующих дистилляцию с управлением, таких как FLUX, мы показываем, что отключение классификатор-независимого управления, то есть установка масштаба управления на 1 во время адаптации, является критически важным для достижения удовлетворительной производительности. Многочисленные эксперименты подтверждают, что URAE достигает сопоставимой производительности в генерации 2K с современными закрытыми моделями, такими как FLUX1.1 [Pro] Ultra, используя всего 3K образцов и 2K итераций, одновременно устанавливая новые стандарты для генерации с разрешением 4K. Код доступен {здесь}https://github.com/Huage001/URAE.
English
Text-to-image diffusion models have achieved remarkable progress in recent years. However, training models for high-resolution image generation remains challenging, particularly when training data and computational resources are limited. In this paper, we explore this practical problem from two key perspectives: data and parameter efficiency, and propose a set of key guidelines for ultra-resolution adaptation termed URAE. For data efficiency, we theoretically and empirically demonstrate that synthetic data generated by some teacher models can significantly promote training convergence. For parameter efficiency, we find that tuning minor components of the weight matrices outperforms widely-used low-rank adapters when synthetic data are unavailable, offering substantial performance gains while maintaining efficiency. Additionally, for models leveraging guidance distillation, such as FLUX, we show that disabling classifier-free guidance, i.e., setting the guidance scale to 1 during adaptation, is crucial for satisfactory performance. Extensive experiments validate that URAE achieves comparable 2K-generation performance to state-of-the-art closed-source models like FLUX1.1 [Pro] Ultra with only 3K samples and 2K iterations, while setting new benchmarks for 4K-resolution generation. Codes are available https://github.com/Huage001/URAE{here}.

Summary

AI-Generated Summary

PDF132March 21, 2025