Humanline: 지각 손실로서의 온라인 정렬
Humanline: Online Alignment as Perceptual Loss
September 29, 2025
저자: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh
cs.AI
초록
온라인 정렬(예: GRPO)은 일반적으로 오프라인 정렬(예: DPO)보다 더 나은 성능을 보입니다. 하지만 그 이유는 무엇일까요? 우리는 행동경제학의 전망 이론(prospect theory)을 바탕으로 인간 중심의 설명을 제안합니다. 우리는 온라인 온-정책 샘플링이 모델이 생성할 수 있는 내용에 대한 인간의 인지 분포를 더 잘 근사하며, PPO/GRPO 스타일의 클리핑(clipping) -- 원래는 훈련 안정화를 위해 도입된 기법 -- 이 인간이 확률을 인지하는 방식에서의 인지 편향을 복원한다는 것을 증명합니다. 이러한 의미에서 PPO/GRPO는 이미 인지적 손실 함수(perceptual loss)로 작용합니다. 우리의 이론은 더 나아가 온라인/오프라인 이분법 자체가 인간의 효용을 극대화하는 데 부수적인 요소임을 시사합니다. 왜냐하면 온라인 온-정책 데이터에 국한되지 않고, 인간의 인지 방식을 모방하는 방식으로 어떤 데이터를 선택적으로 훈련하더라도 동일한 효과를 얻을 수 있기 때문입니다. 이를 통해 성능 저하 없이 더 빠르고, 저렴하며, 유연하게 사후 훈련(post-training)을 수행할 수 있습니다. 이를 위해 우리는 확률에 대한 인지적 왜곡을 DPO/KTO/GRPO와 같은 목적 함수에 명시적으로 통합하는 설계 패턴을 제안하며, 이들의 '휴먼라인(humanline)' 변형을 생성합니다. 놀랍게도, 이러한 휴먼라인 변형은 오프라인 오프-정책 데이터로 훈련되었을지라도 검증 가능 및 검증 불가능한 작업 모두에서 온라인 대응 모델과 동등한 성능을 보일 수 있음을 발견했습니다.
English
Online alignment (e.g., GRPO) is generally more performant than offline
alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral
economics, we propose a human-centric explanation. We prove that online
on-policy sampling better approximates the human-perceived distribution of what
the model can produce, and PPO/GRPO-style clipping -- originally introduced to
just stabilize training -- recovers a perceptual bias in how humans perceive
probability. In this sense, PPO/GRPO act as perceptual losses already. Our
theory further suggests that the online/offline dichotomy is itself incidental
to maximizing human utility, since we can achieve the same effect by
selectively training on any data in a manner that mimics human perception,
rather than restricting ourselves to online on-policy data. Doing so would
allow us to post-train more quickly, cheaply, and flexibly without sacrificing
performance. To this end, we propose a design pattern that explicitly
incorporates perceptual distortions of probability into objectives like
DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that
these humanline variants, even when trained with offline off-policy data, can
match the performance of their online counterparts on both verifiable and
unverifiable tasks.