ChatPaper.aiChatPaper

Скрытая состязательная регуляризация для оптимизации предпочтений в офлайн-режиме

Latent Adversarial Regularization for Offline Preference Optimization

January 29, 2026
Авторы: Enyi Jiang, Yibo Jacky Zhang, Yinglun Xu, Andreas Haupt, Nancy Amato, Sanmi Koyejo
cs.AI

Аннотация

Обучение с подкреплением на основе человеческих предпочтений обычно опирается на оптимизацию предпочтений, которая ограничивает обновления политики с помощью регуляризации на уровне токенов. Однако оптимизация предпочтений для языковых моделей представляет особую сложность, поскольку сходство в токенном пространстве не подразумевает семантического или поведенческого сходства. Для решения этой проблемы мы применяем регуляризацию в латентном пространстве для оптимизации предпочтений языковых моделей. Мы представляем GANPO, который достигает регуляризации в латентном пространстве путем штрафования расхождения между внутренними представлениями моделей политики и референсной модели. Учитывая, что латентные представления не связаны с явными плотностями вероятностей, мы используем состязательный подход, вдохновленный генеративно-состязательными сетями (GAN), для минимизации расхождения в латентном пространстве. Мы интегрируем GANPO в качестве регуляризатора в существующие цели оптимизации предпочтений на оффлайн-данных. Эксперименты на различных модельных архитектурах и задачах демонстрируют устойчивые улучшения благодаря латентной регуляризации. Кроме того, сравнивая выводы, индуцированные GANPO, с выводами от регуляризации на уровне токенов, мы обнаруживаем, что GANPO обеспечивает более robustную структурную обратную связь в условиях сдвига распределения и зашумленных данных, сохраняя при этом сопоставимую производительность на последующих задачах с незначительными вычислительными затратами.
English
Learning from human feedback typically relies on preference optimization that constrains policy updates through token-level regularization. However, preference optimization for language models is particularly challenging because token-space similarity does not imply semantic or behavioral similarity. To address this challenge, we leverage latent-space regularization for language model preference optimization. We introduce GANPO, which achieves latent-space regularization by penalizing divergence between the internal representations of a policy model and a reference model. Given that latent representations are not associated with explicit probability densities, we adopt an adversarial approach inspired by GANs to minimize latent-space divergence. We integrate GANPO as a regularizer into existing offline preference optimization objectives. Experiments across multiple model architectures and tasks show consistent improvements from latent-space regularization. Further, by comparing GANPO-induced inferential biases with those from token-level regularization, we find that GANPO provides more robust structural feedback under distributional shift and noise while maintaining comparable downstream performance with minor computational overhead.
PDF102January 31, 2026