ChatPaper.aiChatPaper

Latente Adversarielle Regularisierung für Offline-Präferenzoptimierung

Latent Adversarial Regularization for Offline Preference Optimization

January 29, 2026
papers.authors: Enyi Jiang, Yibo Jacky Zhang, Yinglun Xu, Andreas Haupt, Nancy Amato, Sanmi Koyejo
cs.AI

papers.abstract

Das Lernen aus menschlichem Feedback basiert typischerweise auf Präferenzoptimierung, die Politikaktualisierungen durch Token-Regularisierung einschränkt. Allerdings ist die Präferenzoptimierung für Sprachmodelle besonders herausfordernd, da Ähnlichkeit im Token-Raum keine semantische oder verhaltensbezogene Ähnlichkeit impliziert. Um diese Herausforderung zu bewältigen, nutzen wir Latent-Space-Regularisierung für die Präferenzoptimierung von Sprachmodellen. Wir stellen GANPO vor, das Latent-Space-Regularisierung durch Bestrafung der Divergenz zwischen den internen Repräsentationen eines Politikmodells und eines Referenzmodells erreicht. Da latente Repräsentationen nicht mit expliziten Wahrscheinlichkeitsdichten assoziiert sind, verwenden wir einen von GANs inspirierten adversariellen Ansatz, um die Divergenz im latenten Raum zu minimieren. Wir integrieren GANPO als Regularisierer in bestehende Offline-Präferenzoptimierungsziele. Experimente über mehrere Modellarchitekturen und Aufgaben hinweg zeigen konsistente Verbesserungen durch Latent-Space-Regularisierung. Weiterhin finden wir durch den Vergleich von GANPO-induzierten inferentiellen Verzerrungen mit denen der Token-Regularisierung, dass GANPO unter Distribution Shift und Rauschen robustere strukturelle Rückmeldung liefert, bei vergleichbarer Downstream-Leistung mit geringem Rechenmehraufwand.
English
Learning from human feedback typically relies on preference optimization that constrains policy updates through token-level regularization. However, preference optimization for language models is particularly challenging because token-space similarity does not imply semantic or behavioral similarity. To address this challenge, we leverage latent-space regularization for language model preference optimization. We introduce GANPO, which achieves latent-space regularization by penalizing divergence between the internal representations of a policy model and a reference model. Given that latent representations are not associated with explicit probability densities, we adopt an adversarial approach inspired by GANs to minimize latent-space divergence. We integrate GANPO as a regularizer into existing offline preference optimization objectives. Experiments across multiple model architectures and tasks show consistent improvements from latent-space regularization. Further, by comparing GANPO-induced inferential biases with those from token-level regularization, we find that GANPO provides more robust structural feedback under distributional shift and noise while maintaining comparable downstream performance with minor computational overhead.
PDF102January 31, 2026