La précision des résultats ne suffit pas : aligner le processus de raisonnement des modèles de récompense

Résumé

Les modèles génératifs de récompense (GenRM) et les approches LLM-comme-juge présentent un alignement trompeur en produisant des jugements corrects pour des raisons incorrectes, car ils sont entraînés et évalués pour privilégier la précision du résultat, ce qui compromet leur capacité à généraliser durant le processus RLHF. Nous introduisons la cohérence des justifications, une métrique fine qui quantifie l'alignement entre le processus de raisonnement du modèle et le jugement humain. Notre évaluation des modèles de pointe révèle que la cohérence des justifications discrimine efficacement les modèles les plus avancés et détecte l'alignement trompeur, tandis que la précision du résultat échoue sur ces deux aspects. Pour combler cette lacune, nous introduisons un signal hybride combinant la cohérence des justifications et la précision du résultat pour l'entraînement des GenRM. Notre méthode d'entraînement atteint des performances de pointe sur RM-Bench (87,1 %) et JudgeBench (82 %), dépassant les modèles de référence basés uniquement sur le résultat de 5 % en moyenne. Utilisé comme modèle de récompense durant le RLHF, notre méthode améliore efficacement les performances, comme démontré sur Arena Hard v2, avec notamment une amélioration de 7 % sur les tâches d'écriture créative. Une analyse approfondie confirme que notre méthode échappe au piège de l'alignement trompeur, inversant efficacement le déclin de la cohérence des justifications observé avec l'entraînement basé uniquement sur le résultat.

English

Generative Reward Models (GenRMs) and LLM-as-a-Judge exhibit deceptive alignment by producing correct judgments for incorrect reasons, as they are trained and evaluated to prioritize Outcome Accuracy, which undermines their ability to generalize during RLHF. We introduce Rationale Consistency, a fine-grained metric that quantifies the alignment between the model's reasoning process and human judgment. Our evaluation of frontier models reveals that rationale consistency effectively discriminates among state-of-the-art models and detects deceptive alignment, while outcome accuracy falls short in both respects. To mitigate this gap, we introduce a hybrid signal that combines rationale consistency with outcome accuracy for GenRM training. Our training method achieves state-of-the-art performance on RM-Bench (87.1%) and JudgeBench (82%), surpassing outcome-only baselines by an average of 5%. Using RM during RLHF, our method effectively improves performance as demonstrated on Arena Hard v2, notably yielding a 7% improvement in creative writing tasks. Further analysis confirms that our method escapes the deceptive alignment trap, effectively reversing the decline in rationale consistency observed in outcome-only training.

La précision des résultats ne suffit pas : aligner le processus de raisonnement des modèles de récompense

Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models

Résumé

Support