RUBRIC-ARROW: Alternierende punktweise Rubrik-Belohnungsmodellierung für das LLM-Nachtraining in nicht-verifizierbaren Domänen

Zusammenfassung

Punktweise Belohnungsmodellierung liefert kritische Signale für das Post-Training von Large Language Models (LLMs), hat jedoch Schwierigkeiten mit absoluten Bewertungen in subjektiven, nicht verifizierbaren Umgebungen. Rubrikenbasierte Methoden begegnen diesem Problem, indem sie die Bewertung in explizite Kriterien zerlegen, doch bestehende Ansätze sind typischerweise auf Frontier-LLMs angewiesen und leiden unter Gleichständen, die durch harte boolesche Aggregation verursacht werden. Wir stellen RUBRIC-ARROW vor, ein alternierendes Framework, das gemeinsam einen Rubrikengenerator und einen rubrikenbedingten Bewerter trainiert, wobei dessen RL-Phase ausschließlich paarweise Präferenzdaten nutzt. Unsere Methode koppelt eine wahrscheinlichkeitsbasierte Bewertungsregel, die Gleichstände reduziert, mit phasenspezifischen präferenzbasierten Belohnungen und einem alternierenden GRPO-Schema, die gemeinsam den punktweisen Bewerter trainieren. Umfangreiche Experimente zeigen, dass RUBRIC-ARROW eine wettbewerbsfähige Genauigkeit der Belohnungsmodellierung erreicht und konsistente Verbesserungen für das nachgelagerte Policy-Post-Training erzielt.

English

Pointwise reward modeling offers critical signals for LLM post-training, yet struggles with absolute scoring in subjective, non-verifiable settings. Rubric-based methods address this by decomposing evaluation into explicit criteria, but existing approaches typically depend on frontier LLMs and suffer from ties caused by hard Boolean aggregation. We present RUBRIC-ARROW, an alternating framework that jointly trains a rubric generator and a rubric-conditioned judge, with its RL stage using only pairwise preference data. Our method couples a probability-based scoring rule that reduces ties with phase-specific preference-based rewards and an alternating GRPO scheme that together train the pointwise evaluator. Extensive experiments show that RUBRIC-ARROW achieves competitive reward-modeling accuracy and yields consistent gains for downstream policy post-training.