Humanline: Online Uitlijning als Perceptueel Verlies
Humanline: Online Alignment as Perceptual Loss
September 29, 2025
Auteurs: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh
cs.AI
Samenvatting
Online alignment (bijv. GRPO) presteert over het algemeen beter dan offline alignment (bijv. DPO) — maar waarom? Gebruikmakend van de prospecttheorie uit de gedragseconomie, stellen we een mensgerichte verklaring voor. We bewijzen dat online on-policy sampling beter de door mensen waargenomen verdeling benadert van wat het model kan produceren, en dat PPO/GRPO-style clipping — oorspronkelijk geïntroduceerd om de training te stabiliseren — een perceptuele bias herstelt in hoe mensen waarschijnlijkheid waarnemen. In die zin fungeren PPO/GRPO al als perceptuele verliesfuncties. Onze theorie suggereert verder dat de online/offline dichotomie zelf incidenteel is voor het maximaliseren van menselijk nut, aangezien we hetzelfde effect kunnen bereiken door selectief te trainen op alle data op een manier die menselijke perceptie nabootst, in plaats van ons te beperken tot online on-policy data. Dit zou ons in staat stellen om sneller, goedkoper en flexibeler na te trainen zonder in te leveren op prestaties. Hiertoe stellen we een ontwerppatroon voor dat expliciet perceptuele vervormingen van waarschijnlijkheid incorporeert in doelen zoals DPO/KTO/GRPO, waardoor humanline-varianten ervan ontstaan. Verrassend genoeg ontdekken we dat deze humanline-varianten, zelfs wanneer getraind met offline off-policy data, de prestaties van hun online tegenhangers kunnen evenaren, zowel bij verifieerbare als niet-verifieerbare taken.
English
Online alignment (e.g., GRPO) is generally more performant than offline
alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral
economics, we propose a human-centric explanation. We prove that online
on-policy sampling better approximates the human-perceived distribution of what
the model can produce, and PPO/GRPO-style clipping -- originally introduced to
just stabilize training -- recovers a perceptual bias in how humans perceive
probability. In this sense, PPO/GRPO act as perceptual losses already. Our
theory further suggests that the online/offline dichotomy is itself incidental
to maximizing human utility, since we can achieve the same effect by
selectively training on any data in a manner that mimics human perception,
rather than restricting ourselves to online on-policy data. Doing so would
allow us to post-train more quickly, cheaply, and flexibly without sacrificing
performance. To this end, we propose a design pattern that explicitly
incorporates perceptual distortions of probability into objectives like
DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that
these humanline variants, even when trained with offline off-policy data, can
match the performance of their online counterparts on both verifiable and
unverifiable tasks.