Humanline: Allineamento Online come Perdita Percettiva
Humanline: Online Alignment as Perceptual Loss
September 29, 2025
Autori: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh
cs.AI
Abstract
L'allineamento online (ad esempio, GRPO) è generalmente più performante rispetto all'allineamento offline (ad esempio, DPO) — ma perché? Attingendo alla teoria del prospetto dell'economia comportamentale, proponiamo una spiegazione incentrata sull'essere umano. Dimostriamo che il campionamento on-policy online approssima meglio la distribuzione percepita dagli esseri umani di ciò che il modello può produrre, e il clipping in stile PPO/GRPO — introdotto originariamente per stabilizzare l'addestramento — recupera un bias percettivo nel modo in cui gli esseri umani percepiscono la probabilità. In questo senso, PPO/GRPO agiscono già come perdite percettive. La nostra teoria suggerisce inoltre che la dicotomia online/offline è di per sé incidentale per massimizzare l'utilità umana, poiché possiamo ottenere lo stesso effetto addestrandoci selettivamente su qualsiasi dato in modo che mimi la percezione umana, piuttosto che limitarci ai dati on-policy online. Questo ci permetterebbe di effettuare post-addestramenti in modo più rapido, economico e flessibile senza sacrificare le prestazioni. A tal fine, proponiamo un modello di progettazione che incorpora esplicitamente le distorsioni percettive della probabilità in obiettivi come DPO/KTO/GRPO, creando varianti "humanline" di essi. Sorprendentemente, scopriamo che queste varianti humanline, anche quando addestrate con dati offline off-policy, possono eguagliare le prestazioni delle loro controparti online sia su compiti verificabili che non verificabili.
English
Online alignment (e.g., GRPO) is generally more performant than offline
alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral
economics, we propose a human-centric explanation. We prove that online
on-policy sampling better approximates the human-perceived distribution of what
the model can produce, and PPO/GRPO-style clipping -- originally introduced to
just stabilize training -- recovers a perceptual bias in how humans perceive
probability. In this sense, PPO/GRPO act as perceptual losses already. Our
theory further suggests that the online/offline dichotomy is itself incidental
to maximizing human utility, since we can achieve the same effect by
selectively training on any data in a manner that mimics human perception,
rather than restricting ourselves to online on-policy data. Doing so would
allow us to post-train more quickly, cheaply, and flexibly without sacrificing
performance. To this end, we propose a design pattern that explicitly
incorporates perceptual distortions of probability into objectives like
DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that
these humanline variants, even when trained with offline off-policy data, can
match the performance of their online counterparts on both verifiable and
unverifiable tasks.