Humanline: Online-Ausrichtung als Wahrnehmungsverlust
Humanline: Online Alignment as Perceptual Loss
September 29, 2025
papers.authors: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh
cs.AI
papers.abstract
Online-Alignment (z. B. GRPO) ist im Allgemeinen leistungsfähiger als Offline-Alignment (z. B. DPO) – aber warum? Unter Bezugnahme auf die Prospect-Theorie aus der Verhaltensökonomie schlagen wir eine menschenzentrierte Erklärung vor. Wir beweisen, dass das Online-On-Policy-Sampling die vom Menschen wahrgenommene Verteilung dessen, was das Modell produzieren kann, besser annähert, und dass das Clipping im Stil von PPO/GRPO – ursprünglich eingeführt, um das Training zu stabilisieren – eine Wahrnehmungsverzerrung in Bezug darauf, wie Menschen Wahrscheinlichkeiten wahrnehmen, widerspiegelt. In diesem Sinne fungieren PPO/GRPO bereits als Wahrnehmungsverluste. Unsere Theorie legt weiterhin nahe, dass die Online/Offline-Dichotomie an sich nebensächlich für die Maximierung des menschlichen Nutzens ist, da wir denselben Effekt erzielen können, indem wir selektiv auf Daten trainieren, die die menschliche Wahrnehmung nachahmen, anstatt uns auf Online-On-Policy-Daten zu beschränken. Dies würde es uns ermöglichen, schneller, kostengünstiger und flexibler nachzutrainieren, ohne dabei die Leistung zu beeinträchtigen. Zu diesem Zweck schlagen wir ein Entwurfsmuster vor, das Wahrnehmungsverzerrungen von Wahrscheinlichkeiten explizit in Zielvorgaben wie DPO/KTO/GRPO integriert und dadurch menschenzentrierte Varianten davon schafft. Überraschenderweise stellen wir fest, dass diese menschenzentrierten Varianten, selbst wenn sie mit Offline-Off-Policy-Daten trainiert werden, die Leistung ihrer Online-Pendants sowohl bei überprüfbaren als auch bei nicht überprüfbaren Aufgaben erreichen können.
English
Online alignment (e.g., GRPO) is generally more performant than offline
alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral
economics, we propose a human-centric explanation. We prove that online
on-policy sampling better approximates the human-perceived distribution of what
the model can produce, and PPO/GRPO-style clipping -- originally introduced to
just stabilize training -- recovers a perceptual bias in how humans perceive
probability. In this sense, PPO/GRPO act as perceptual losses already. Our
theory further suggests that the online/offline dichotomy is itself incidental
to maximizing human utility, since we can achieve the same effect by
selectively training on any data in a manner that mimics human perception,
rather than restricting ourselves to online on-policy data. Doing so would
allow us to post-train more quickly, cheaply, and flexibly without sacrificing
performance. To this end, we propose a design pattern that explicitly
incorporates perceptual distortions of probability into objectives like
DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that
these humanline variants, even when trained with offline off-policy data, can
match the performance of their online counterparts on both verifiable and
unverifiable tasks.