Chaque question a sa propre valeur : apprentissage par renforcement avec des valeurs humaines explicites
Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values
October 23, 2025
papers.authors: Dian Yu, Yulai Zhao, Kishan Panaganti, Linfeng Song, Haitao Mi, Dong Yu
cs.AI
papers.abstract
Nous proposons l'Apprentissage par Renforcement avec Valeurs Humaines Explicites (RLEV), une méthode qui aligne directement l'optimisation des Grands Modèles de Langage (LLM) sur des signaux de valeurs humaines quantifiables. Bien que l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) entraîne efficacement les modèles dans des domaines objectifs en utilisant des récompenses binaires de correction, il néglige le fait que toutes les tâches n'ont pas la même importance. RLEV étend ce cadre en intégrant directement des signaux de valeur définis par l'homme dans la fonction de récompense. En utilisant des données de type examen avec des étiquettes de valeur explicites, RLEV surpasse systématiquement les approches de base basées uniquement sur la correction, et ce across plusieurs algorithmes d'apprentissage par renforcement et échelles de modèles. Fait crucial, les politiques RLEV améliorent non seulement la précision pondérée par la valeur, mais apprennent également une politique d'arrêt sensible à la valeur : concise pour les invites de faible valeur, approfondie pour celles de haute valeur. Nous démontrons que ce comportement découle d'une amplification du gradient pondérée par la valeur sur les jetons de fin de séquence. Des études d'ablation confirment que le gain est causalement lié à l'alignement sur les valeurs. RLEV reste robuste face à des signaux de valeur bruités, tels que des étiquettes basées sur la difficulté, démontrant qu'optimiser pour une fonction d'utilité explicite offre une voie pratique pour aligner les LLM sur les priorités humaines.
English
We propose Reinforcement Learning with Explicit Human Values (RLEV), a method
that aligns Large Language Model (LLM) optimization directly with quantifiable
human value signals. While Reinforcement Learning with Verifiable Rewards
(RLVR) effectively trains models in objective domains using binary correctness
rewards, it overlooks that not all tasks are equally significant. RLEV extends
this framework by incorporating human-defined value signals directly into the
reward function. Using exam-style data with explicit ground-truth value labels,
RLEV consistently outperforms correctness-only baselines across multiple RL
algorithms and model scales. Crucially, RLEV policies not only improve
value-weighted accuracy but also learn a value-sensitive termination policy:
concise for low-value prompts, thorough for high-value ones. We demonstrate
this behavior stems from value-weighted gradient amplification on
end-of-sequence tokens. Ablation studies confirm the gain is causally linked to
value alignment. RLEV remains robust under noisy value signals, such as
difficulty-based labels, demonstrating that optimizing for an explicit utility
function offers a practical path to aligning LLMs with human priorities.