Humanline: Онлайн выравнивание как функция потерь на основе восприятия
Humanline: Online Alignment as Perceptual Loss
September 29, 2025
Авторы: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh
cs.AI
Аннотация
Онлайн-выравнивание (например, GRPO), как правило, демонстрирует более высокую производительность, чем офлайн-выравнивание (например, DPO), — но почему? Опираясь на теорию перспектив из поведенческой экономики, мы предлагаем объяснение, ориентированное на человека. Мы доказываем, что онлайн-выборка на основе текущей политики лучше аппроксимирует распределение, воспринимаемое человеком как то, что модель может генерировать, а ограничение в стиле PPO/GRPO, изначально введенное для стабилизации обучения, восстанавливает перцептивное искажение в восприятии вероятности человеком. В этом смысле PPO/GRPO уже действуют как перцептивные функции потерь. Наша теория также предполагает, что дихотомия онлайн/офлайн сама по себе не является ключевой для максимизации полезности для человека, поскольку тот же эффект можно достичь, выборочно обучаясь на любых данных таким образом, чтобы имитировать человеческое восприятие, вместо того чтобы ограничиваться онлайн-данными на основе текущей политики. Это позволит проводить пост-обучение быстрее, дешевле и гибче без ущерба для производительности. С этой целью мы предлагаем шаблон проектирования, который явно включает перцептивные искажения вероятности в целевые функции, такие как DPO/KTO/GRPO, создавая их "человеко-ориентированные" варианты. Удивительно, но мы обнаруживаем, что эти "человеко-ориентированные" варианты, даже при обучении на офлайн-данных вне текущей политики, могут соответствовать производительности своих онлайн-аналогов как на проверяемых, так и на непроверяемых задачах.
English
Online alignment (e.g., GRPO) is generally more performant than offline
alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral
economics, we propose a human-centric explanation. We prove that online
on-policy sampling better approximates the human-perceived distribution of what
the model can produce, and PPO/GRPO-style clipping -- originally introduced to
just stabilize training -- recovers a perceptual bias in how humans perceive
probability. In this sense, PPO/GRPO act as perceptual losses already. Our
theory further suggests that the online/offline dichotomy is itself incidental
to maximizing human utility, since we can achieve the same effect by
selectively training on any data in a manner that mimics human perception,
rather than restricting ourselves to online on-policy data. Doing so would
allow us to post-train more quickly, cheaply, and flexibly without sacrificing
performance. To this end, we propose a design pattern that explicitly
incorporates perceptual distortions of probability into objectives like
DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that
these humanline variants, even when trained with offline off-policy data, can
match the performance of their online counterparts on both verifiable and
unverifiable tasks.