Regularización Adversarial Latente para la Optimización de Preferencias sin Conexión
Latent Adversarial Regularization for Offline Preference Optimization
January 29, 2026
Autores: Enyi Jiang, Yibo Jacky Zhang, Yinglun Xu, Andreas Haupt, Nancy Amato, Sanmi Koyejo
cs.AI
Resumen
El aprendizaje a partir de retroalimentación humana normalmente se basa en la optimización de preferencias que restringe las actualizaciones de la política mediante una regularización a nivel de token. Sin embargo, la optimización de preferencias para modelos de lenguaje es particularmente desafiante porque la similitud en el espacio de tokens no implica similitud semántica o conductual. Para abordar este desafío, aprovechamos la regularización en el espacio latente para la optimización de preferencias de modelos de lenguaje. Introducimos GANPO, que logra la regularización en el espacio latente penalizando la divergencia entre las representaciones internas de un modelo de política y un modelo de referencia. Dado que las representaciones latentes no están asociadas con densidades de probabilidad explícitas, adoptamos un enfoque adversarial inspirado en las GAN para minimizar la divergencia en el espacio latente. Integramos GANPO como un regularizador en los objetivos existentes de optimización de preferencias fuera de línea. Los experimentos en múltiples arquitecturas de modelos y tareas muestran mejoras consistentes gracias a la regularización en el espacio latente. Además, al comparar los sesgos inferenciales inducidos por GANPO con aquellos de la regularización a nivel de token, encontramos que GANPO proporciona una retroalimentación estructural más robusta bajo cambios de distribución y ruido, mientras mantiene un rendimiento comparable en tareas posteriores con una sobrecarga computacional menor.
English
Learning from human feedback typically relies on preference optimization that constrains policy updates through token-level regularization. However, preference optimization for language models is particularly challenging because token-space similarity does not imply semantic or behavioral similarity. To address this challenge, we leverage latent-space regularization for language model preference optimization. We introduce GANPO, which achieves latent-space regularization by penalizing divergence between the internal representations of a policy model and a reference model. Given that latent representations are not associated with explicit probability densities, we adopt an adversarial approach inspired by GANs to minimize latent-space divergence. We integrate GANPO as a regularizer into existing offline preference optimization objectives. Experiments across multiple model architectures and tasks show consistent improvements from latent-space regularization. Further, by comparing GANPO-induced inferential biases with those from token-level regularization, we find that GANPO provides more robust structural feedback under distributional shift and noise while maintaining comparable downstream performance with minor computational overhead.