Humanline: Online-Ausrichtung als Wahrnehmungsverlust

papers.abstract

Online-Alignment (z. B. GRPO) ist im Allgemeinen leistungsfähiger als Offline-Alignment (z. B. DPO) – aber warum? Unter Bezugnahme auf die Prospect-Theorie aus der Verhaltensökonomie schlagen wir eine menschenzentrierte Erklärung vor. Wir beweisen, dass das Online-On-Policy-Sampling die vom Menschen wahrgenommene Verteilung dessen, was das Modell produzieren kann, besser annähert, und dass das Clipping im Stil von PPO/GRPO – ursprünglich eingeführt, um das Training zu stabilisieren – eine Wahrnehmungsverzerrung in Bezug darauf, wie Menschen Wahrscheinlichkeiten wahrnehmen, widerspiegelt. In diesem Sinne fungieren PPO/GRPO bereits als Wahrnehmungsverluste. Unsere Theorie legt weiterhin nahe, dass die Online/Offline-Dichotomie an sich nebensächlich für die Maximierung des menschlichen Nutzens ist, da wir denselben Effekt erzielen können, indem wir selektiv auf Daten trainieren, die die menschliche Wahrnehmung nachahmen, anstatt uns auf Online-On-Policy-Daten zu beschränken. Dies würde es uns ermöglichen, schneller, kostengünstiger und flexibler nachzutrainieren, ohne dabei die Leistung zu beeinträchtigen. Zu diesem Zweck schlagen wir ein Entwurfsmuster vor, das Wahrnehmungsverzerrungen von Wahrscheinlichkeiten explizit in Zielvorgaben wie DPO/KTO/GRPO integriert und dadurch menschenzentrierte Varianten davon schafft. Überraschenderweise stellen wir fest, dass diese menschenzentrierten Varianten, selbst wenn sie mit Offline-Off-Policy-Daten trainiert werden, die Leistung ihrer Online-Pendants sowohl bei überprüfbaren als auch bei nicht überprüfbaren Aufgaben erreichen können.

English

Online alignment (e.g., GRPO) is generally more performant than offline alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral economics, we propose a human-centric explanation. We prove that online on-policy sampling better approximates the human-perceived distribution of what the model can produce, and PPO/GRPO-style clipping -- originally introduced to just stabilize training -- recovers a perceptual bias in how humans perceive probability. In this sense, PPO/GRPO act as perceptual losses already. Our theory further suggests that the online/offline dichotomy is itself incidental to maximizing human utility, since we can achieve the same effect by selectively training on any data in a manner that mimics human perception, rather than restricting ourselves to online on-policy data. Doing so would allow us to post-train more quickly, cheaply, and flexibly without sacrificing performance. To this end, we propose a design pattern that explicitly incorporates perceptual distortions of probability into objectives like DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that these humanline variants, even when trained with offline off-policy data, can match the performance of their online counterparts on both verifiable and unverifiable tasks.

Humanline: Online-Ausrichtung als Wahrnehmungsverlust

Humanline: Online Alignment as Perceptual Loss

papers.abstract

Support