Afwisselende Reinforcement Learning voor Rubric-Gebaseerde Beloningsmodellering bij Niet-Verifieerbare LLM Post-Training

Samenvatting

Standaard beloningsmodellen voorspellen typisch scalaire scores die de veelzijdige aard van responskwaliteit in niet-verifieerbare domeinen, zoals creatief schrijven of het opvolgen van open-ended instructies, niet kunnen vatten. Om deze beperking aan te pakken, stellen we Rubric-ARM voor, een raamwerk dat een rubriekgenerator en een beoordelaar gezamenlijk optimaliseert met behulp van reinforcement learning op basis van voorkeursfeedback. In tegenstelling tot bestaande methoden die vertrouwen op statische rubrieken of onsamenhangende trainingspijplijnen, behandelt onze aanpak rubriekgeneratie als een latente actie die wordt aangeleerd om de beoordelingsnauwkeurigheid te maximaliseren. We introduceren een afwisselende optimalisatiestrategie om de non-stationariteit van gelijktijdige updates te mitigeren, ondersteund door een theoretische analyse die aantoont hoe dit schema de variantie van de gradiënt tijdens de training reduceert. Uitgebreide experimenten tonen aan dat Rubric-ARM state-of-the-art prestaties bereikt onder baseline-methoden op meerdere benchmarks en de downstream policy-afstemming significant verbetert in zowel offline als online reinforcement learning settings.

English

Standard reward models typically predict scalar scores that fail to capture the multifaceted nature of response quality in non-verifiable domains, such as creative writing or open-ended instruction following. To address this limitation, we propose Rubric-ARM, a framework that jointly optimizes a rubric generator and a judge using reinforcement learning from preference feedback. Unlike existing methods that rely on static rubrics or disjoint training pipelines, our approach treats rubric generation as a latent action learned to maximize judgment accuracy. We introduce an alternating optimization strategy to mitigate the non-stationarity of simultaneous updates, providing theoretical analysis that demonstrates how this schedule reduces gradient variance during training. Extensive experiments show that Rubric-ARM achieves state-of-the-art performance among baselines on multiple benchmarks and significantly improves downstream policy alignment in both offline and online reinforcement learning settings.

Afwisselende Reinforcement Learning voor Rubric-Gebaseerde Beloningsmodellering bij Niet-Verifieerbare LLM Post-Training

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

Samenvatting

Support