Apprendimento per Rinforzo Alternato per la Modellazione di Ricompense Basata su Rubrica nell'Addestramento Postumo di LLM Non Verificabili

Abstract

I modelli di reward standard tipicamente predicano punteggi scalari che non riescono a catturare la natura multifaccetata della qualità della risposta in domini non verificabili, come la scrittura creativa o l'adesione a istruzioni aperte. Per affrontare questa limitazione, proponiamo Rubric-ARM, un framework che ottimizza congiuntamente un generatore di rubriche e un giudice utilizzando l'apprendimento per rinforzo da feedback di preferenza. A differenza dei metodi esistenti che si basano su rubriche statiche o pipeline di addestramento disgiunte, il nostro approccio tratta la generazione della rubrica come un'azione latente appresa per massimizzare l'accuratezza del giudizio. Introduciamo una strategia di ottimizzazione alternata per mitigare la non stazionarietà degli aggiornamenti simultanei, fornendo un'analisi teorica che dimostra come questa pianificazione riduca la varianza del gradiente durante l'addestramento. Esperimenti estesi mostrano che Rubric-ARM raggiunge prestazioni all'avanguardia tra i baseline su molteplici benchmark e migliora significativamente l'allineamento della politica a valle in contesti di apprendimento per rinforzo sia offline che online.

English

Standard reward models typically predict scalar scores that fail to capture the multifaceted nature of response quality in non-verifiable domains, such as creative writing or open-ended instruction following. To address this limitation, we propose Rubric-ARM, a framework that jointly optimizes a rubric generator and a judge using reinforcement learning from preference feedback. Unlike existing methods that rely on static rubrics or disjoint training pipelines, our approach treats rubric generation as a latent action learned to maximize judgment accuracy. We introduce an alternating optimization strategy to mitigate the non-stationarity of simultaneous updates, providing theoretical analysis that demonstrates how this schedule reduces gradient variance during training. Extensive experiments show that Rubric-ARM achieves state-of-the-art performance among baselines on multiple benchmarks and significantly improves downstream policy alignment in both offline and online reinforcement learning settings.

Apprendimento per Rinforzo Alternato per la Modellazione di Ricompense Basata su Rubrica nell'Addestramento Postumo di LLM Non Verificabili

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

Abstract

Support