Latente Adversariële Regularisatie voor Offline Preferentie-optimalisatie

Samenvatting

Leren op basis van menselijke feedback steunt typisch op voorkeursoptimalisatie die beleidsupdates beperkt via token-level regularisatie. Voorkeursoptimalisatie voor taalmodelen is echter bijzonder uitdagend omdat gelijkenis in token-ruimte niet noodzakelijk semantische of gedragsmatige gelijkenis impliceert. Om deze uitdaging aan te pakken, benutten wij latent-space regularisatie voor voorkeursoptimalisatie van taalmodelen. Wij introduceren GANPO, dat latent-space regularisatie bereikt door de divergentie te bestraffen tussen de interne representaties van een beleidsmodel en een referentiemodel. Aangezien latente representaties niet geassocieerd zijn met expliciete kansdichtheden, nemen wij een adversariële aanpak geïnspireerd door GANs aan om de latent-space divergentie te minimaliseren. Wij integreren GANPO als regularisator in bestaande offline voorkeursoptimalisatiedoelstellingen. Experimenten over meerdere modelarchitecturen en taken tonen consistente verbeteringen door latent-space regularisatie. Verder vinden wij, door de inferentiële vertekeningen veroorzaakt door GANPO te vergelijken met die van token-level regularisatie, dat GANPO robuustere structurele feedback biedt onder distributionele verschuiving en ruis, terwijl het vergelijkbare downstreamprestaties handhaaft met minimale computationele overhead.

English

Learning from human feedback typically relies on preference optimization that constrains policy updates through token-level regularization. However, preference optimization for language models is particularly challenging because token-space similarity does not imply semantic or behavioral similarity. To address this challenge, we leverage latent-space regularization for language model preference optimization. We introduce GANPO, which achieves latent-space regularization by penalizing divergence between the internal representations of a policy model and a reference model. Given that latent representations are not associated with explicit probability densities, we adopt an adversarial approach inspired by GANs to minimize latent-space divergence. We integrate GANPO as a regularizer into existing offline preference optimization objectives. Experiments across multiple model architectures and tasks show consistent improvements from latent-space regularization. Further, by comparing GANPO-induced inferential biases with those from token-level regularization, we find that GANPO provides more robust structural feedback under distributional shift and noise while maintaining comparable downstream performance with minor computational overhead.

Latente Adversariële Regularisatie voor Offline Preferentie-optimalisatie

Latent Adversarial Regularization for Offline Preference Optimization

Samenvatting

Support