ChatPaper.aiChatPaper

Humanline: 知覚的損失としてのオンラインアラインメント

Humanline: Online Alignment as Perceptual Loss

September 29, 2025
著者: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh
cs.AI

要旨

オンラインアライメント(例:GRPO)は、一般的にオフラインアライメント(例:DPO)よりも高性能です。しかし、その理由は何でしょうか?行動経済学のプロスペクト理論を援用し、我々は人間中心の説明を提案します。我々は、オンラインのオン・ポリシーサンプリングが、モデルが生成できるものの人間が知覚する分布をより良く近似することを証明し、PPO/GRPOスタイルのクリッピング(元々は訓練を安定化するために導入されたもの)が、人間が確率をどのように知覚するかにおける知覚バイアスを回復することを示します。この意味で、PPO/GRPOはすでに知覚損失として機能しています。我々の理論はさらに、オンライン/オフラインの二分法自体が人間の効用を最大化するために偶発的であることを示唆しています。なぜなら、オンラインのオン・ポリシーデータに限定するのではなく、人間の知覚を模倣する方法で任意のデータを選択的に訓練することで、同じ効果を達成できるからです。これにより、性能を犠牲にすることなく、より迅速に、安価に、柔軟にポストトレーニングを行うことが可能になります。この目的のために、我々は確率の知覚歪みをDPO/KTO/GRPOのような目的関数に明示的に組み込む設計パターンを提案し、それらのヒューマンライン変種を作成します。驚くべきことに、これらのヒューマンライン変種は、オフラインのオフ・ポリシーデータで訓練された場合でも、検証可能なタスクと検証不可能なタスクの両方において、オンラインの対応する手法と同等の性能を発揮することがわかりました。
English
Online alignment (e.g., GRPO) is generally more performant than offline alignment (e.g., DPO) -- but why? Drawing on prospect theory from behavioral economics, we propose a human-centric explanation. We prove that online on-policy sampling better approximates the human-perceived distribution of what the model can produce, and PPO/GRPO-style clipping -- originally introduced to just stabilize training -- recovers a perceptual bias in how humans perceive probability. In this sense, PPO/GRPO act as perceptual losses already. Our theory further suggests that the online/offline dichotomy is itself incidental to maximizing human utility, since we can achieve the same effect by selectively training on any data in a manner that mimics human perception, rather than restricting ourselves to online on-policy data. Doing so would allow us to post-train more quickly, cheaply, and flexibly without sacrificing performance. To this end, we propose a design pattern that explicitly incorporates perceptual distortions of probability into objectives like DPO/KTO/GRPO, creating humanline variants of them. Surprisingly, we find that these humanline variants, even when trained with offline off-policy data, can match the performance of their online counterparts on both verifiable and unverifiable tasks.
PDF81October 1, 2025