Humanline : Alignement en ligne comme perte perceptuelle
Humanline: Online Alignment as Perceptual Loss
September 29, 2025
papers.authors: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh
cs.AI
papers.abstract
L'alignement en ligne (par exemple, GRPO) est généralement plus performant que l'alignement hors ligne (par exemple, DPO) — mais pourquoi ? En nous appuyant sur la théorie des perspectives issue de l'économie comportementale, nous proposons une explication centrée sur l'humain. Nous démontrons que l'échantillonnage en ligne sur politique approche mieux la distribution perçue par les humains de ce que le modèle peut produire, et que le clipping de type PPO/GRPO — initialement introduit pour stabiliser l'entraînement — reproduit un biais perceptif dans la manière dont les humains perçoivent les probabilités. En ce sens, PPO/GRPO agissent déjà comme des pertes perceptuelles. Notre théorie suggère en outre que la dichotomie en ligne/hors ligne est elle-même accessoire pour maximiser l'utilité humaine, car nous pouvons obtenir le même effet en entraînant de manière sélective sur n'importe quelles données d'une manière qui imite la perception humaine, plutôt que de nous restreindre aux données en ligne sur politique. Cela nous permettrait de post-entraîner plus rapidement, à moindre coût et avec plus de flexibilité sans sacrifier les performances. À cette fin, nous proposons un modèle de conception qui intègre explicitement les distorsions perceptuelles des probabilités dans des objectifs comme DPO/KTO/GRPO, créant ainsi des variantes "humanline" de ces méthodes. Étonnamment, nous constatons que ces variantes humanline, même lorsqu'elles sont entraînées avec des données hors ligne et hors politique, peuvent égaler les performances de leurs homologues en ligne sur des tâches à la fois vérifiables et non vérifiables.
English
Online alignment (e.g., GRPO) is generally more performant than offline
alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral
economics, we propose a human-centric explanation. We prove that online
on-policy sampling better approximates the human-perceived distribution of what
the model can produce, and PPO/GRPO-style clipping -- originally introduced to
just stabilize training -- recovers a perceptual bias in how humans perceive
probability. In this sense, PPO/GRPO act as perceptual losses already. Our
theory further suggests that the online/offline dichotomy is itself incidental
to maximizing human utility, since we can achieve the same effect by
selectively training on any data in a manner that mimics human perception,
rather than restricting ourselves to online on-policy data. Doing so would
allow us to post-train more quickly, cheaply, and flexibly without sacrificing
performance. To this end, we propose a design pattern that explicitly
incorporates perceptual distortions of probability into objectives like
DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that
these humanline variants, even when trained with offline off-policy data, can
match the performance of their online counterparts on both verifiable and
unverifiable tasks.