Humanline: Alineación en Línea como Pérdida Perceptual
Humanline: Online Alignment as Perceptual Loss
September 29, 2025
Autores: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh
cs.AI
Resumen
El alineamiento en línea (por ejemplo, GRPO) generalmente es más eficiente que el alineamiento fuera de línea (por ejemplo, DPO), pero ¿por qué? Basándonos en la teoría prospectiva de la economía conductual, proponemos una explicación centrada en el ser humano. Demostramos que el muestreo en línea basado en políticas aproxima mejor la distribución percibida por los humanos de lo que el modelo puede producir, y que el recorte estilo PPO/GRPO —originalmente introducido para estabilizar el entrenamiento— recupera un sesgo perceptual en cómo los humanos perciben la probabilidad. En este sentido, PPO/GRPO ya actúan como pérdidas perceptuales. Nuestra teoría sugiere además que la dicotomía en línea/fuera de línea es en sí misma incidental para maximizar la utilidad humana, ya que podemos lograr el mismo efecto entrenando selectivamente con cualquier dato de una manera que imite la percepción humana, en lugar de limitarnos a datos en línea basados en políticas. Hacerlo nos permitiría realizar entrenamientos posteriores de manera más rápida, económica y flexible sin sacrificar el rendimiento. Con este fin, proponemos un patrón de diseño que incorpora explícitamente distorsiones perceptuales de la probabilidad en objetivos como DPO/KTO/GRPO, creando variantes "humanline" de los mismos. Sorprendentemente, encontramos que estas variantes humanline, incluso cuando se entrenan con datos fuera de línea y fuera de políticas, pueden igualar el rendimiento de sus contrapartes en línea tanto en tareas verificables como no verificables.
English
Online alignment (e.g., GRPO) is generally more performant than offline
alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral
economics, we propose a human-centric explanation. We prove that online
on-policy sampling better approximates the human-perceived distribution of what
the model can produce, and PPO/GRPO-style clipping -- originally introduced to
just stabilize training -- recovers a perceptual bias in how humans perceive
probability. In this sense, PPO/GRPO act as perceptual losses already. Our
theory further suggests that the online/offline dichotomy is itself incidental
to maximizing human utility, since we can achieve the same effect by
selectively training on any data in a manner that mimics human perception,
rather than restricting ourselves to online on-policy data. Doing so would
allow us to post-train more quickly, cheaply, and flexibly without sacrificing
performance. To this end, we propose a design pattern that explicitly
incorporates perceptual distortions of probability into objectives like
DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that
these humanline variants, even when trained with offline off-policy data, can
match the performance of their online counterparts on both verifiable and
unverifiable tasks.