ChatPaper.aiChatPaper

Alternierendes Verstärkungslernen für rubrikengestütztes Belohnungsmodellierung im nicht verifizierbaren Nachtraining von großen Sprachmodellen

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

February 2, 2026
papers.authors: Ran Xu, Tianci Liu, Zihan Dong, Tony You, Ilgee Hong, Carl Yang, Linjun Zhang, Tao Zhao, Haoyu Wang
cs.AI

papers.abstract

Herkömmliche Belohnungsmodelle sagen in der Regel skalare Werte vorher, die der vielschichtigen Natur der Antwortqualität in nicht überprüfbaren Domänen wie kreativem Schreiben oder offenen Instruktionsbefolgungen nicht gerecht werden. Um diese Einschränkung zu adressieren, schlagen wir Rubric-ARM vor, einen Rahmen, der einen Rubrik-Generator und ein Bewertungsmodul gemeinsam durch Verstärkungslernen aus Präferenzfeedback optimiert. Im Gegensatz zu bestehenden Methoden, die auf statischen Rubriken oder getrennten Trainingspipelines basieren, behandelt unser Ansatz die Rubrik-Generierung als latente Aktion, die erlernt wird, um die Bewertungsgenauigkeit zu maximieren. Wir führen eine abwechselnde Optimierungsstrategie ein, um der Nichtstationarität gleichzeitiger Aktualisierungen entgegenzuwirken, und liefern eine theoretische Analyse, die zeigt, wie dieser Zeitplan die Gradientenvarianz während des Trainings reduziert. Umfangreiche Experimente belegen, dass Rubric-ARM state-of-the-art Leistung unter Baseline-Modellen auf mehreren Benchmarks erreicht und die nachgelagerte Policy-Ausrichtung in Offline- und Online-Verstärkungslernsettings signifikant verbessert.
English
Standard reward models typically predict scalar scores that fail to capture the multifaceted nature of response quality in non-verifiable domains, such as creative writing or open-ended instruction following. To address this limitation, we propose Rubric-ARM, a framework that jointly optimizes a rubric generator and a judge using reinforcement learning from preference feedback. Unlike existing methods that rely on static rubrics or disjoint training pipelines, our approach treats rubric generation as a latent action learned to maximize judgment accuracy. We introduce an alternating optimization strategy to mitigate the non-stationarity of simultaneous updates, providing theoretical analysis that demonstrates how this schedule reduces gradient variance during training. Extensive experiments show that Rubric-ARM achieves state-of-the-art performance among baselines on multiple benchmarks and significantly improves downstream policy alignment in both offline and online reinforcement learning settings.
PDF132February 7, 2026