Régularisation Adversariale Latente pour l’Optimisation des Préférences Hors Ligne
Latent Adversarial Regularization for Offline Preference Optimization
January 29, 2026
papers.authors: Enyi Jiang, Yibo Jacky Zhang, Yinglun Xu, Andreas Haupt, Nancy Amato, Sanmi Koyejo
cs.AI
papers.abstract
L'apprentissage à partir de retours humains repose généralement sur l'optimisation des préférences qui contraint les mises à jour de la politique via une régularisation au niveau des tokens. Cependant, l'optimisation des préférences pour les modèles de langage est particulièrement difficile car la similarité dans l'espace des tokens n'implique pas une similarité sémantique ou comportementale. Pour relever ce défi, nous exploitons la régularisation dans l'espace latent pour l'optimisation des préférences des modèles de langage. Nous présentons GANPO, qui réalise cette régularisation en pénalisant la divergence entre les représentations internes d'un modèle de politique et d'un modèle de référence. Étant donné que les représentations latentes ne sont pas associées à des densités de probabilité explicites, nous adoptons une approche adversariale inspirée des GANs pour minimiser la divergence dans l'espace latent. Nous intégrons GANPO comme régularisateur dans les objectifs existants d'optimisation des préférences hors-ligne. Les expériences menées sur diverses architectures de modèles et tâches montrent des améliorations constantes grâce à la régularisation dans l'espace latent. De plus, en comparant les biais inférentiels induits par GANPO avec ceux de la régularisation au niveau des tokens, nous constatons que GANPO fournit un retour structurel plus robuste sous changement de distribution et bruit, tout en maintenant des performances en aval comparables avec une surcharge computationnelle mineure.
English
Learning from human feedback typically relies on preference optimization that constrains policy updates through token-level regularization. However, preference optimization for language models is particularly challenging because token-space similarity does not imply semantic or behavioral similarity. To address this challenge, we leverage latent-space regularization for language model preference optimization. We introduce GANPO, which achieves latent-space regularization by penalizing divergence between the internal representations of a policy model and a reference model. Given that latent representations are not associated with explicit probability densities, we adopt an adversarial approach inspired by GANs to minimize latent-space divergence. We integrate GANPO as a regularizer into existing offline preference optimization objectives. Experiments across multiple model architectures and tasks show consistent improvements from latent-space regularization. Further, by comparing GANPO-induced inferential biases with those from token-level regularization, we find that GANPO provides more robust structural feedback under distributional shift and noise while maintaining comparable downstream performance with minor computational overhead.