RUBRIC-ARROW: Alternerend Puntsgewijs Rubric Beloningsmodellering voor LLM-natraining in Niet-verifieerbare Domeinen

Samenvatting

Puntsgewijze beloningsmodellering levert kritieke signalen voor de nabewerking van grote taalmodellen (LLM's), maar heeft moeite met absolute scores in subjectieve, niet-verifieerbare contexten. Rubriekgebaseerde methoden pakken dit aan door evaluatie op te splitsen in expliciete criteria, maar bestaande benaderingen zijn doorgaans afhankelijk van geavanceerde LLM's en lijden onder gelijke standen die ontstaan door harde Booleaanse aggregatie. Wij presenteren RUBRIC-ARROW, een afwisselend raamwerk dat gezamenlijk een rubriekgenerator en een rubric-geconditioneerde beoordelaar traint, waarbij de RL-fase alleen gebruikmaakt van paarsgewijze voorkeursdata. Onze methode combineert een op waarschijnlijkheid gebaseerde scoreregel die gelijke standen vermindert, met fase-specifieke op voorkeur gebaseerde beloningen en een afwisselend GRPO-schema dat gezamenlijk de puntsgewijze evaluator traint. Uitgebreide experimenten tonen aan dat RUBRIC-ARROW concurrerende nauwkeurigheid in beloningsmodellering bereikt en consistente winst oplevert voor stroomafwaartse beleidsnabewerking.

English

Pointwise reward modeling offers critical signals for LLM post-training, yet struggles with absolute scoring in subjective, non-verifiable settings. Rubric-based methods address this by decomposing evaluation into explicit criteria, but existing approaches typically depend on frontier LLMs and suffer from ties caused by hard Boolean aggregation. We present RUBRIC-ARROW, an alternating framework that jointly trains a rubric generator and a rubric-conditioned judge, with its RL stage using only pairwise preference data. Our method couples a probability-based scoring rule that reduces ties with phase-specific preference-based rewards and an alternating GRPO scheme that together train the pointwise evaluator. Extensive experiments show that RUBRIC-ARROW achieves competitive reward-modeling accuracy and yields consistent gains for downstream policy post-training.