ChatPaper.aiChatPaper

Humanline: Online Uitlijning als Perceptueel Verlies

Humanline: Online Alignment as Perceptual Loss

September 29, 2025
Auteurs: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh
cs.AI

Samenvatting

Online alignment (bijv. GRPO) presteert over het algemeen beter dan offline alignment (bijv. DPO) — maar waarom? Gebruikmakend van de prospecttheorie uit de gedragseconomie, stellen we een mensgerichte verklaring voor. We bewijzen dat online on-policy sampling beter de door mensen waargenomen verdeling benadert van wat het model kan produceren, en dat PPO/GRPO-style clipping — oorspronkelijk geïntroduceerd om de training te stabiliseren — een perceptuele bias herstelt in hoe mensen waarschijnlijkheid waarnemen. In die zin fungeren PPO/GRPO al als perceptuele verliesfuncties. Onze theorie suggereert verder dat de online/offline dichotomie zelf incidenteel is voor het maximaliseren van menselijk nut, aangezien we hetzelfde effect kunnen bereiken door selectief te trainen op alle data op een manier die menselijke perceptie nabootst, in plaats van ons te beperken tot online on-policy data. Dit zou ons in staat stellen om sneller, goedkoper en flexibeler na te trainen zonder in te leveren op prestaties. Hiertoe stellen we een ontwerppatroon voor dat expliciet perceptuele vervormingen van waarschijnlijkheid incorporeert in doelen zoals DPO/KTO/GRPO, waardoor humanline-varianten ervan ontstaan. Verrassend genoeg ontdekken we dat deze humanline-varianten, zelfs wanneer getraind met offline off-policy data, de prestaties van hun online tegenhangers kunnen evenaren, zowel bij verifieerbare als niet-verifieerbare taken.
English
Online alignment (e.g., GRPO) is generally more performant than offline alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral economics, we propose a human-centric explanation. We prove that online on-policy sampling better approximates the human-perceived distribution of what the model can produce, and PPO/GRPO-style clipping -- originally introduced to just stabilize training -- recovers a perceptual bias in how humans perceive probability. In this sense, PPO/GRPO act as perceptual losses already. Our theory further suggests that the online/offline dichotomy is itself incidental to maximizing human utility, since we can achieve the same effect by selectively training on any data in a manner that mimics human perception, rather than restricting ourselves to online on-policy data. Doing so would allow us to post-train more quickly, cheaply, and flexibly without sacrificing performance. To this end, we propose a design pattern that explicitly incorporates perceptual distortions of probability into objectives like DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that these humanline variants, even when trained with offline off-policy data, can match the performance of their online counterparts on both verifiable and unverifiable tasks.
PDF112October 1, 2025