HyperAlign:拡散モデルの効率的なテスト時アライメントのためのハイパーネットワーク
HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models
January 22, 2026
著者: Xin Xie, Jiaxian Guo, Dong Gong
cs.AI
要旨
拡散モデルは最先端の性能を達成するが、人間の選好や意図に合致した出力を生成できず、審美性に欠け意味論的一貫性の低い画像が生じる場合が多い。既存のアライメント手法は困難なトレードオフを伴う:ファインチューニング手法は報酬の過最適化による多様性の喪失に悩まされ、テスト時スケーリング手法は計算コストが大きく最適化不足になりがちである。これらの課題を解決するため、我々は効率的かつ効果的なテスト時アライメントを実現するハイパーネットワークを訓練する新規フレームワークHyperAlignを提案する。HyperAlignは潜在状態の修正ではなく、低ランク適応重みを動的に生成し、拡散モデルの生成演算子を変調する。これにより、入力潜在変数・タイムステップ・プロンプトに基づいてノイズ除去軌道を適応的に調整し、報酬条件付きアライメントを実現する。ハイパーネットワークの適用頻度により性能と効率のバランスが異なる複数のHyperAlign変種を導入する。さらに、報酬ハッキングを軽減するため、選好データで正則化された報酬スコア目的関数を用いてハイパーネットワークを最適化する。Stable DiffusionやFLUXを含む複数の拡張生成パラダイムでHyperAlignを評価した結果、意味論的一貫性と視覚的魅力の向上において、既存のファインチューニング及びテスト時スケーリング手法を大幅に上回る性能を示した。
English
Diffusion models achieve state-of-the-art performance but often fail to generate outputs that align with human preferences and intentions, resulting in images with poor aesthetic quality and semantic inconsistencies. Existing alignment methods present a difficult trade-off: fine-tuning approaches suffer from loss of diversity with reward over-optimization, while test-time scaling methods introduce significant computational overhead and tend to under-optimize. To address these limitations, we propose HyperAlign, a novel framework that trains a hypernetwork for efficient and effective test-time alignment. Instead of modifying latent states, HyperAlign dynamically generates low-rank adaptation weights to modulate the diffusion model's generation operators. This allows the denoising trajectory to be adaptively adjusted based on input latents, timesteps and prompts for reward-conditioned alignment. We introduce multiple variants of HyperAlign that differ in how frequently the hypernetwork is applied, balancing between performance and efficiency. Furthermore, we optimize the hypernetwork using a reward score objective regularized with preference data to reduce reward hacking. We evaluate HyperAlign on multiple extended generative paradigms, including Stable Diffusion and FLUX. It significantly outperforms existing fine-tuning and test-time scaling baselines in enhancing semantic consistency and visual appeal.