ChatPaper.aiChatPaper

Apprentissage par Renforcement Alterné pour la Modélisation de Récompenses Basée sur une Grille d'Évaluation dans le Post-Entraînement de Modèles de Langue Non Vérifiables

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

February 2, 2026
papers.authors: Ran Xu, Tianci Liu, Zihan Dong, Tony You, Ilgee Hong, Carl Yang, Linjun Zhang, Tao Zhao, Haoyu Wang
cs.AI

papers.abstract

Les modèles de récompense standards prédisent généralement des scores scalaires qui ne parviennent pas à capturer la nature multidimensionnelle de la qualité des réponses dans des domaines non vérifiables, tels que l'écriture créative ou l'exécution d'instructions ouvertes. Pour remédier à cette limitation, nous proposons Rubric-ARM, un cadre qui optimise conjointement un générateur de grille d'évaluation et un évaluateur en utilisant l'apprentissage par renforcement à partir de retours de préférence. Contrairement aux méthodes existantes qui reposent sur des grilles statiques ou des pipelines d'entraînement disjoints, notre approche traite la génération de grilles comme une action latente apprise pour maximiser la précision du jugement. Nous introduisons une stratégie d'optimisation alternée pour atténuer la non-stationnarité des mises à jour simultanées, en fournissant une analyse théorique qui démontre comment cette planification réduit la variance du gradient pendant l'entraînement. Des expériences approfondies montrent que Rubric-ARM atteint des performances de pointe parmi les méthodes de référence sur plusieurs benchmarks et améliore significativement l'alignement des politiques en aval dans des contextes d'apprentissage par renforcement hors ligne et en ligne.
English
Standard reward models typically predict scalar scores that fail to capture the multifaceted nature of response quality in non-verifiable domains, such as creative writing or open-ended instruction following. To address this limitation, we propose Rubric-ARM, a framework that jointly optimizes a rubric generator and a judge using reinforcement learning from preference feedback. Unlike existing methods that rely on static rubrics or disjoint training pipelines, our approach treats rubric generation as a latent action learned to maximize judgment accuracy. We introduce an alternating optimization strategy to mitigate the non-stationarity of simultaneous updates, providing theoretical analysis that demonstrates how this schedule reduces gradient variance during training. Extensive experiments show that Rubric-ARM achieves state-of-the-art performance among baselines on multiple benchmarks and significantly improves downstream policy alignment in both offline and online reinforcement learning settings.
PDF132February 7, 2026