Humanline: Alineación en Línea como Pérdida Perceptual

Resumen

El alineamiento en línea (por ejemplo, GRPO) generalmente es más eficiente que el alineamiento fuera de línea (por ejemplo, DPO), pero ¿por qué? Basándonos en la teoría prospectiva de la economía conductual, proponemos una explicación centrada en el ser humano. Demostramos que el muestreo en línea basado en políticas aproxima mejor la distribución percibida por los humanos de lo que el modelo puede producir, y que el recorte estilo PPO/GRPO —originalmente introducido para estabilizar el entrenamiento— recupera un sesgo perceptual en cómo los humanos perciben la probabilidad. En este sentido, PPO/GRPO ya actúan como pérdidas perceptuales. Nuestra teoría sugiere además que la dicotomía en línea/fuera de línea es en sí misma incidental para maximizar la utilidad humana, ya que podemos lograr el mismo efecto entrenando selectivamente con cualquier dato de una manera que imite la percepción humana, en lugar de limitarnos a datos en línea basados en políticas. Hacerlo nos permitiría realizar entrenamientos posteriores de manera más rápida, económica y flexible sin sacrificar el rendimiento. Con este fin, proponemos un patrón de diseño que incorpora explícitamente distorsiones perceptuales de la probabilidad en objetivos como DPO/KTO/GRPO, creando variantes "humanline" de los mismos. Sorprendentemente, encontramos que estas variantes humanline, incluso cuando se entrenan con datos fuera de línea y fuera de políticas, pueden igualar el rendimiento de sus contrapartes en línea tanto en tareas verificables como no verificables.

English

Online alignment (e.g., GRPO) is generally more performant than offline alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral economics, we propose a human-centric explanation. We prove that online on-policy sampling better approximates the human-perceived distribution of what the model can produce, and PPO/GRPO-style clipping -- originally introduced to just stabilize training -- recovers a perceptual bias in how humans perceive probability. In this sense, PPO/GRPO act as perceptual losses already. Our theory further suggests that the online/offline dichotomy is itself incidental to maximizing human utility, since we can achieve the same effect by selectively training on any data in a manner that mimics human perception, rather than restricting ourselves to online on-policy data. Doing so would allow us to post-train more quickly, cheaply, and flexibly without sacrificing performance. To this end, we propose a design pattern that explicitly incorporates perceptual distortions of probability into objectives like DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that these humanline variants, even when trained with offline off-policy data, can match the performance of their online counterparts on both verifiable and unverifiable tasks.

Humanline: Alineación en Línea como Pérdida Perceptual

Humanline: Online Alignment as Perceptual Loss

Resumen

Support