Regularização Adversarial Latente para Otimização de Preferências Offline

Resumo

A aprendizagem a partir de feedback humano normalmente depende de otimização de preferências que restringe atualizações da política por meio de regularização em nível de token. No entanto, a otimização de preferências para modelos de linguagem é particularmente desafiadora porque a similaridade no espaço de tokens não implica similaridade semântica ou comportamental. Para enfrentar esse desafio, aproveitamos a regularização no espaço latente para a otimização de preferências em modelos de linguagem. Introduzimos o GANPO, que alcança regularização no espaço latente penalizando a divergência entre as representações internas de um modelo de política e um modelo de referência. Dado que as representações latentes não estão associadas a densidades de probabilidade explícitas, adotamos uma abordagem adversarial inspirada em GANs para minimizar a divergência no espaço latente. Integramos o GANPO como um regularizador em objetivos existentes de otimização de preferências offline. Experimentos em várias arquiteturas de modelo e tarefas mostram melhorias consistentes provenientes da regularização no espaço latente. Além disso, ao comparar os vieses inferenciais induzidos pelo GANPO com aqueles da regularização em nível de token, descobrimos que o GANPO fornece feedback estrutural mais robusto sob mudança distribucional e ruído, mantendo desempenho downstream comparável com pequena sobrecarga computacional.

English

Learning from human feedback typically relies on preference optimization that constrains policy updates through token-level regularization. However, preference optimization for language models is particularly challenging because token-space similarity does not imply semantic or behavioral similarity. To address this challenge, we leverage latent-space regularization for language model preference optimization. We introduce GANPO, which achieves latent-space regularization by penalizing divergence between the internal representations of a policy model and a reference model. Given that latent representations are not associated with explicit probability densities, we adopt an adversarial approach inspired by GANs to minimize latent-space divergence. We integrate GANPO as a regularizer into existing offline preference optimization objectives. Experiments across multiple model architectures and tasks show consistent improvements from latent-space regularization. Further, by comparing GANPO-induced inferential biases with those from token-level regularization, we find that GANPO provides more robust structural feedback under distributional shift and noise while maintaining comparable downstream performance with minor computational overhead.

Regularização Adversarial Latente para Otimização de Preferências Offline

Latent Adversarial Regularization for Offline Preference Optimization

Resumo

Support