ChatPaper.aiChatPaper

HyperAlign: 확산 모델의 효율적인 테스트 타임 얼라인먼트를 위한 하이퍼네트워크

HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models

January 22, 2026
저자: Xin Xie, Jiaxian Guo, Dong Gong
cs.AI

초록

확산 모델은 최첨단 성능을 달성하지만 인간의 선호도와 의도를 충족시키지 못해 미적 품질이 낮고 의미론적 일관성이 부족한 이미지를 생성하는 경우가 많습니다. 기존 정렬 방법은 어려운 절충을 요구하는데, 미세 조정 기법은 보상 과최적화로 인한 다양성 손실을 겪는 반면, 테스트 시간 스케일링 방법은 상당한 계산 부담을 초래하고 최적화가 부족한 경향이 있습니다. 이러한 한계를 해결하기 위해 우리는 효율적이고 효과적인 테스트 시간 정렬을 위한 하이퍼네트워크를 학습하는 새로운 프레임워크인 HyperAlign을 제안합니다. HyperAlign은 잠재 상태를 수정하는 대신 확산 모델의 생성 연산자를 조절하기 위한 저순위 적응 가중치를 동적으로 생성합니다. 이를 통해 잡음 제거 궤적이 입력 잠재 변수, 타임스텝, 프롬프트에 기반하여 보상 조건 정렬을 위해 적응적으로 조정될 수 있습니다. 우리는 하이퍼네트워크 적용 빈도에 따라 성능과 효율성 사이의 균형을 맞추는 여러 HyperAlign 변형을 소개합니다. 또한 보상 해킹을 줄이기 위해 선호도 데이터로 정규화된 보상 점수 목적 함수를 사용하여 하이퍼네트워크를 최적화합니다. HyperAlign을 Stable Diffusion과 FLUX를 포함한 다양한 확장 생성 패러다임에서 평가한 결과, 의미론적 일관성과 시각적 매력 향상에 있어 기존 미세 조정 및 테스트 시간 스케일링 기준선을 크게 능가하는 것으로 나타났습니다.
English
Diffusion models achieve state-of-the-art performance but often fail to generate outputs that align with human preferences and intentions, resulting in images with poor aesthetic quality and semantic inconsistencies. Existing alignment methods present a difficult trade-off: fine-tuning approaches suffer from loss of diversity with reward over-optimization, while test-time scaling methods introduce significant computational overhead and tend to under-optimize. To address these limitations, we propose HyperAlign, a novel framework that trains a hypernetwork for efficient and effective test-time alignment. Instead of modifying latent states, HyperAlign dynamically generates low-rank adaptation weights to modulate the diffusion model's generation operators. This allows the denoising trajectory to be adaptively adjusted based on input latents, timesteps and prompts for reward-conditioned alignment. We introduce multiple variants of HyperAlign that differ in how frequently the hypernetwork is applied, balancing between performance and efficiency. Furthermore, we optimize the hypernetwork using a reward score objective regularized with preference data to reduce reward hacking. We evaluate HyperAlign on multiple extended generative paradigms, including Stable Diffusion and FLUX. It significantly outperforms existing fine-tuning and test-time scaling baselines in enhancing semantic consistency and visual appeal.
PDF31January 29, 2026