HyperAlign: Гиперсеть для эффективной адаптации диффузионных моделей во время тестирования
HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models
January 22, 2026
Авторы: Xin Xie, Jiaxian Guo, Dong Gong
cs.AI
Аннотация
Модели диффузии демонстрируют наилучшие результаты, однако часто не способны генерировать выходные данные, соответствующие человеческим предпочтениям и намерениям, что приводит к созданию изображений с низким эстетическим качеством и семантическими противоречиями. Существующие методы согласования представляют собой сложный компромисс: подходы тонкой настройки страдают от потери разнообразия из-за сверхоптимизации по функции вознаграждения, в то время как методы масштабирования на этапе тестирования влекут значительные вычислительные затраты и склонны к недостаточной оптимизации. Для преодоления этих ограничений мы предлагаем HyperAlign — новую архитектуру, которая обучает гиперсеть для эффективного и действенного согласования на этапе тестирования. Вместо модификации латентных состояний HyperAlign динамически генерирует веса низкоранговой адаптации для модуляции операторов генерации модели диффузии. Это позволяет адаптивно корректировать траекторию шумоподавления на основе входных латентных переменных, временных шагов и промптов для условного по вознаграждению согласования. Мы представляем несколько вариантов HyperAlign, различающихся частотой применения гиперсети, что позволяет балансировать между производительностью и эффективностью. Кроме того, мы оптимизируем гиперсеть с использованием целевой функции оценки вознаграждения, регуляризованной данными предпочтений для снижения риска подгонки под вознаграждение. Мы оцениваем HyperAlign на нескольких расширенных генеративных парадигмах, включая Stable Diffusion и FLUX. Метод значительно превосходит существующие базовые подходы тонкой настройки и масштабирования на этапе тестирования в улучшении семантической согласованности и визуальной привлекательности.
English
Diffusion models achieve state-of-the-art performance but often fail to generate outputs that align with human preferences and intentions, resulting in images with poor aesthetic quality and semantic inconsistencies. Existing alignment methods present a difficult trade-off: fine-tuning approaches suffer from loss of diversity with reward over-optimization, while test-time scaling methods introduce significant computational overhead and tend to under-optimize. To address these limitations, we propose HyperAlign, a novel framework that trains a hypernetwork for efficient and effective test-time alignment. Instead of modifying latent states, HyperAlign dynamically generates low-rank adaptation weights to modulate the diffusion model's generation operators. This allows the denoising trajectory to be adaptively adjusted based on input latents, timesteps and prompts for reward-conditioned alignment. We introduce multiple variants of HyperAlign that differ in how frequently the hypernetwork is applied, balancing between performance and efficiency. Furthermore, we optimize the hypernetwork using a reward score objective regularized with preference data to reduce reward hacking. We evaluate HyperAlign on multiple extended generative paradigms, including Stable Diffusion and FLUX. It significantly outperforms existing fine-tuning and test-time scaling baselines in enhancing semantic consistency and visual appeal.