ChatPaper.aiChatPaper

Regularização Adversarial Latente para Otimização de Preferências Offline

Latent Adversarial Regularization for Offline Preference Optimization

January 29, 2026
Autores: Enyi Jiang, Yibo Jacky Zhang, Yinglun Xu, Andreas Haupt, Nancy Amato, Sanmi Koyejo
cs.AI

Resumo

A aprendizagem a partir de feedback humano normalmente depende de otimização de preferências que restringe atualizações da política por meio de regularização em nível de token. No entanto, a otimização de preferências para modelos de linguagem é particularmente desafiadora porque a similaridade no espaço de tokens não implica similaridade semântica ou comportamental. Para enfrentar esse desafio, aproveitamos a regularização no espaço latente para a otimização de preferências em modelos de linguagem. Introduzimos o GANPO, que alcança regularização no espaço latente penalizando a divergência entre as representações internas de um modelo de política e um modelo de referência. Dado que as representações latentes não estão associadas a densidades de probabilidade explícitas, adotamos uma abordagem adversarial inspirada em GANs para minimizar a divergência no espaço latente. Integramos o GANPO como um regularizador em objetivos existentes de otimização de preferências offline. Experimentos em várias arquiteturas de modelo e tarefas mostram melhorias consistentes provenientes da regularização no espaço latente. Além disso, ao comparar os vieses inferenciais induzidos pelo GANPO com aqueles da regularização em nível de token, descobrimos que o GANPO fornece feedback estrutural mais robusto sob mudança distribucional e ruído, mantendo desempenho downstream comparável com pequena sobrecarga computacional.
English
Learning from human feedback typically relies on preference optimization that constrains policy updates through token-level regularization. However, preference optimization for language models is particularly challenging because token-space similarity does not imply semantic or behavioral similarity. To address this challenge, we leverage latent-space regularization for language model preference optimization. We introduce GANPO, which achieves latent-space regularization by penalizing divergence between the internal representations of a policy model and a reference model. Given that latent representations are not associated with explicit probability densities, we adopt an adversarial approach inspired by GANs to minimize latent-space divergence. We integrate GANPO as a regularizer into existing offline preference optimization objectives. Experiments across multiple model architectures and tasks show consistent improvements from latent-space regularization. Further, by comparing GANPO-induced inferential biases with those from token-level regularization, we find that GANPO provides more robust structural feedback under distributional shift and noise while maintaining comparable downstream performance with minor computational overhead.
PDF132February 16, 2026