オフライン選好最適化のための潜在敵対的正則化
Latent Adversarial Regularization for Offline Preference Optimization
January 29, 2026
著者: Enyi Jiang, Yibo Jacky Zhang, Yinglun Xu, Andreas Haupt, Nancy Amato, Sanmi Koyejo
cs.AI
要旨
人間からのフィードバックに基づく学習は、通常、トークンレベルの正則化を通じて方策更新を制約する選好最適化に依存している。しかし、言語モデルにおける選好最適化は特に困難である。なぜなら、トークン空間の類似性が意味的または行動的類似性を意味するわけではないからである。この課題に対処するため、我々は言語モデルの選好最適化に潜在空間正則化を利用する。GANPOを提案する。これは、方策モデルと参照モデルの内部表現間の乖離をペナルティ化することで、潜在空間正則化を実現する。潜在表現は明示的な確率密度と関連付けられていないことを考慮し、GANに着想を得た敵対的アプローチを採用して潜在空間の乖離を最小化する。GANPOを正則化項として、既存のオフライン選好最適化の目的関数に統合する。複数のモデルアーキテクチャとタスクにおける実験により、潜在空間正則化による一貫した改善が示される。さらに、GANPOが誘導する推論バイアスとトークンレベル正則化によるものを比較することで、GANPOが分布シフトやノイズ下でよりロバストな構造的フィードバックを提供し、下流タスクの性能を同等に維持しつつ、計算オーバーヘッドがわずかであることを明らかにする。
English
Learning from human feedback typically relies on preference optimization that constrains policy updates through token-level regularization. However, preference optimization for language models is particularly challenging because token-space similarity does not imply semantic or behavioral similarity. To address this challenge, we leverage latent-space regularization for language model preference optimization. We introduce GANPO, which achieves latent-space regularization by penalizing divergence between the internal representations of a policy model and a reference model. Given that latent representations are not associated with explicit probability densities, we adopt an adversarial approach inspired by GANs to minimize latent-space divergence. We integrate GANPO as a regularizer into existing offline preference optimization objectives. Experiments across multiple model architectures and tasks show consistent improvements from latent-space regularization. Further, by comparing GANPO-induced inferential biases with those from token-level regularization, we find that GANPO provides more robust structural feedback under distributional shift and noise while maintaining comparable downstream performance with minor computational overhead.