HyperAlign: Hiper-rede para Alinhamento Eficiente em Tempo de Teste de Modelos de Difusão

Resumo

Os modelos de difusão alcançam desempenho de última geração, mas frequentemente falham em gerar resultados alinhados com as preferências e intenções humanas, resultando em imagens com baixa qualidade estética e inconsistências semânticas. Os métodos de alinhamento existentes apresentam uma difícil escolha: as abordagens de *fine-tuning* sofrem com perda de diversidade devido à superotimização por recompensa, enquanto os métodos de escalonamento em tempo de teste introduzem uma sobrecarga computacional significativa e tendem a subotimizar. Para superar essas limitações, propomos o HyperAlign, uma nova estrutura que treina uma hiper-rede para um alinhamento eficiente e eficaz em tempo de teste. Em vez de modificar estados latentes, o HyperAlign gera dinamicamente pesos de adaptação de baixo *rank* para modular os operadores de geração do modelo de difusão. Isso permite que a trajetória de remoção de ruído seja ajustada de forma adaptativa com base nos *latents* de entrada, passos de tempo e *prompts* para o alinhamento condicionado por recompensa. Introduzimos múltiplas variantes do HyperAlign que diferem na frequência com que a hiper-rede é aplicada, equilibrando desempenho e eficiência. Além disso, otimizamos a hiper-rede usando um objetivo de pontuação de recompensa regularizado com dados de preferência para reduzir a exploração indevida da recompensa (*reward hacking*). Avaliamos o HyperAlign em múltiplos paradigmas generativos estendidos, incluindo Stable Diffusion e FLUX. Ele supera significativamente as *baselines* existentes de *fine-tuning* e escalonamento em tempo de teste na melhoria da consistência semântica e do apelo visual.

English

Diffusion models achieve state-of-the-art performance but often fail to generate outputs that align with human preferences and intentions, resulting in images with poor aesthetic quality and semantic inconsistencies. Existing alignment methods present a difficult trade-off: fine-tuning approaches suffer from loss of diversity with reward over-optimization, while test-time scaling methods introduce significant computational overhead and tend to under-optimize. To address these limitations, we propose HyperAlign, a novel framework that trains a hypernetwork for efficient and effective test-time alignment. Instead of modifying latent states, HyperAlign dynamically generates low-rank adaptation weights to modulate the diffusion model's generation operators. This allows the denoising trajectory to be adaptively adjusted based on input latents, timesteps and prompts for reward-conditioned alignment. We introduce multiple variants of HyperAlign that differ in how frequently the hypernetwork is applied, balancing between performance and efficiency. Furthermore, we optimize the hypernetwork using a reward score objective regularized with preference data to reduce reward hacking. We evaluate HyperAlign on multiple extended generative paradigms, including Stable Diffusion and FLUX. It significantly outperforms existing fine-tuning and test-time scaling baselines in enhancing semantic consistency and visual appeal.