HyperAlign: Hiperred para la Alineación Eficiente en Tiempo de Prueba de Modelos de Difusión
HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models
January 22, 2026
Autores: Xin Xie, Jiaxian Guo, Dong Gong
cs.AI
Resumen
Los modelos de difusión logran un rendimiento de vanguardia, pero a menudo fallan en generar resultados que se alineen con las preferencias e intenciones humanas, lo que da lugar a imágenes con baja calidad estética e inconsistencias semánticas. Los métodos de alineación existentes presentan una difícil disyuntiva: los enfoques de ajuste fino sufren de pérdida de diversidad debido a la sobreoptimización de la recompensa, mientras que los métodos de escalado en tiempo de prueba introducen una sobrecarga computacional significativa y tienden a una suboptimización. Para abordar estas limitaciones, proponemos HyperAlign, un marco novedoso que entrena una hiperred para una alineación eficiente y efectiva en tiempo de prueba. En lugar de modificar los estados latentes, HyperAlign genera dinámicamente pesos de adaptación de bajo rango para modular los operadores de generación del modelo de difusión. Esto permite que la trayectoria de eliminación de ruido se ajuste de forma adaptativa en función de los latentes de entrada, los intervalos de tiempo y las indicaciones para la alineación condicionada por recompensa. Introducimos múltiples variantes de HyperAlign que difieren en la frecuencia con la que se aplica la hiperred, equilibrando rendimiento y eficiencia. Además, optimizamos la hiperred utilizando un objetivo de puntuación de recompensa regularizado con datos de preferencia para reducir la explotación indebida de recompensas. Evaluamos HyperAlign en múltiples paradigmas generativos extendidos, incluyendo Stable Diffusion y FLUX. Supera significativamente a los métodos base existentes de ajuste fino y escalado en tiempo de prueba en la mejora de la consistencia semántica y el atractivo visual.
English
Diffusion models achieve state-of-the-art performance but often fail to generate outputs that align with human preferences and intentions, resulting in images with poor aesthetic quality and semantic inconsistencies. Existing alignment methods present a difficult trade-off: fine-tuning approaches suffer from loss of diversity with reward over-optimization, while test-time scaling methods introduce significant computational overhead and tend to under-optimize. To address these limitations, we propose HyperAlign, a novel framework that trains a hypernetwork for efficient and effective test-time alignment. Instead of modifying latent states, HyperAlign dynamically generates low-rank adaptation weights to modulate the diffusion model's generation operators. This allows the denoising trajectory to be adaptively adjusted based on input latents, timesteps and prompts for reward-conditioned alignment. We introduce multiple variants of HyperAlign that differ in how frequently the hypernetwork is applied, balancing between performance and efficiency. Furthermore, we optimize the hypernetwork using a reward score objective regularized with preference data to reduce reward hacking. We evaluate HyperAlign on multiple extended generative paradigms, including Stable Diffusion and FLUX. It significantly outperforms existing fine-tuning and test-time scaling baselines in enhancing semantic consistency and visual appeal.