ChatPaper.aiChatPaper

Humanline: Alinhamento Online como Perda Perceptiva

Humanline: Online Alignment as Perceptual Loss

September 29, 2025
Autores: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh
cs.AI

Resumo

O alinhamento online (por exemplo, GRPO) geralmente é mais eficiente do que o alinhamento offline (por exemplo, DPO) — mas por quê? Baseando-nos na teoria da perspectiva da economia comportamental, propomos uma explicação centrada no ser humano. Provamos que a amostragem on-policy online aproxima-se melhor da distribuição percebida pelos humanos do que o modelo pode produzir, e o recorte no estilo PPO/GRPO — originalmente introduzido para estabilizar o treinamento — recupera um viés perceptual na forma como os humanos percebem a probabilidade. Nesse sentido, PPO/GRPO já atuam como perdas perceptuais. Nossa teoria sugere ainda que a dicotomia online/offline é, em si, incidental para maximizar a utilidade humana, já que podemos alcançar o mesmo efeito ao treinar seletivamente qualquer dado de uma maneira que imita a percepção humana, em vez de nos restringirmos a dados on-policy online. Fazer isso nos permitiria realizar pós-treinamentos de forma mais rápida, barata e flexível, sem sacrificar o desempenho. Para esse fim, propomos um padrão de design que incorpora explicitamente distorções perceptuais de probabilidade em objetivos como DPO/KTO/GRPO, criando variantes humanline deles. Surpreendentemente, descobrimos que essas variantes humanline, mesmo quando treinadas com dados off-policy offline, podem igualar o desempenho de suas contrapartes online em tarefas verificáveis e não verificáveis.
English
Online alignment (e.g., GRPO) is generally more performant than offline alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral economics, we propose a human-centric explanation. We prove that online on-policy sampling better approximates the human-perceived distribution of what the model can produce, and PPO/GRPO-style clipping -- originally introduced to just stabilize training -- recovers a perceptual bias in how humans perceive probability. In this sense, PPO/GRPO act as perceptual losses already. Our theory further suggests that the online/offline dichotomy is itself incidental to maximizing human utility, since we can achieve the same effect by selectively training on any data in a manner that mimics human perception, rather than restricting ourselves to online on-policy data. Doing so would allow us to post-train more quickly, cheaply, and flexibly without sacrificing performance. To this end, we propose a design pattern that explicitly incorporates perceptual distortions of probability into objectives like DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that these humanline variants, even when trained with offline off-policy data, can match the performance of their online counterparts on both verifiable and unverifiable tasks.
PDF112October 1, 2025