Regolarizzazione Avversaria Latente per l'Ottimizzazione delle Preferenze Offline

Abstract

L'apprendimento dal feedback umano si basa tipicamente sull'ottimizzazione delle preferenze che vincola gli aggiornamenti della policy attraverso una regolarizzazione a livello di token. Tuttavia, l'ottimizzazione delle preferenze per i modelli linguistici è particolarmente complessa poiché la similarità nello spazio dei token non implica una similarità semantica o comportamentale. Per affrontare questa sfida, sfruttiamo la regolarizzazione nello spazio latente per l'ottimizzazione delle preferenze dei modelli linguistici. Introduciamo GANPO, che realizza la regolarizzazione nello spazio latente penalizzando la divergenza tra le rappresentazioni interne di un modello di policy e di un modello di riferimento. Considerando che le rappresentazioni latenti non sono associate a densità di probabilità esplicite, adottiamo un approccio adversarial ispirato alle GAN per minimizzare la divergenza nello spazio latente. Integriamo GANPO come regolarizzatore in obiettivi esistenti di ottimizzazione delle preferenze offline. Esperimenti condotti su molteplici architetture di modelli e task mostrano miglioramenti consistenti derivanti dalla regolarizzazione nello spazio latente. Inoltre, confrontando i bias inferenziali indotti da GANPO con quelli della regolarizzazione a livello di token, riscontriamo che GANPO fornisce un feedback strutturale più robusto sotto shift distribuzionale e rumore, mantenendo al contempo performance downstream comparabili con un sovraccarico computazionale minimo.

English

Learning from human feedback typically relies on preference optimization that constrains policy updates through token-level regularization. However, preference optimization for language models is particularly challenging because token-space similarity does not imply semantic or behavioral similarity. To address this challenge, we leverage latent-space regularization for language model preference optimization. We introduce GANPO, which achieves latent-space regularization by penalizing divergence between the internal representations of a policy model and a reference model. Given that latent representations are not associated with explicit probability densities, we adopt an adversarial approach inspired by GANs to minimize latent-space divergence. We integrate GANPO as a regularizer into existing offline preference optimization objectives. Experiments across multiple model architectures and tasks show consistent improvements from latent-space regularization. Further, by comparing GANPO-induced inferential biases with those from token-level regularization, we find that GANPO provides more robust structural feedback under distributional shift and noise while maintaining comparable downstream performance with minor computational overhead.

Regolarizzazione Avversaria Latente per l'Ottimizzazione delle Preferenze Offline

Latent Adversarial Regularization for Offline Preference Optimization

Abstract

Support