Rubricusgebaseerde Benchmarking en Reinforcement Learning voor het Verbeteren van Instructievolging bij LLM's
Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following
November 13, 2025
Auteurs: Yun He, Wenzhe Li, Hejia Zhang, Songlin Li, Karishma Mandyam, Sopan Khosla, Yuanhao Xiong, Nanshu Wang, Selina Peng, Beibin Li, Shengjie Bi, Shishir G. Patil, Qi Qi, Shengyu Feng, Julian Katz-Samuels, Richard Yuanzhe Pang, Sujan Gonugondla, Hunter Lang, Yue Yu, Yundi Qian, Maryam Fazel-Zarandi, Licheng Yu, Amine Benhalloum, Hany Awadalla, Manaal Faruqui
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen (LLM's) heeft tot indrukwekkende prestaties op een reeks taken geleid, maar geavanceerd instructie-opvolgen (IF) – vooral voor complexe, multi-turn en door systeemprompts gestuurde instructies – blijft een aanzienlijke uitdaging. Strenge evaluatie en effectieve training voor dergelijke capaciteiten worden belemmerd door een gebrek aan hoogwaardige, door mensen geannoteerde benchmarks en betrouwbare, interpreteerbare beloningssignalen. In dit werk introduceren we AdvancedIF (we zullen deze benchmark binnenkort vrijgeven), een uitgebreide benchmark met meer dan 1.600 prompts en door experts samengestelde rubrics die het vermogen van LLM's beoordelen om complexe, multi-turn en systeemniveau-instructies op te volgen. We stellen verder RIFL (Rubric-based Instruction-Following Learning) voor, een nieuwe post-training pijplijn die gebruikmaakt van rubricgeneratie, een fijn afgestelde rubricverifier en reward shaping om effectieve reinforcement learning voor instructie-opvolging mogelijk te maken. Uitgebreide experimenten tonen aan dat RIFL de instructie-opvolgingsvaardigheden van LLM's aanzienlijk verbetert, met een absolute winst van 6,7% op AdvancedIF en sterke resultaten op openbare benchmarks. Onze ablatiestudies bevestigen de effectiviteit van elke component in RIFL. Dit werk vestigt rubrics als een krachtig hulpmiddel voor zowel het trainen als evalueren van geavanceerd IF in LLM's, en baant zo de weg voor capabelere en betrouwbaardere AI-systemen.
English
Recent progress in large language models (LLMs) has led to impressive performance on a range of tasks, yet advanced instruction following (IF)-especially for complex, multi-turn, and system-prompted instructions-remains a significant challenge. Rigorous evaluation and effective training for such capabilities are hindered by the lack of high-quality, human-annotated benchmarks and reliable, interpretable reward signals. In this work, we introduce AdvancedIF (we will release this benchmark soon), a comprehensive benchmark featuring over 1,600 prompts and expert-curated rubrics that assess LLMs ability to follow complex, multi-turn, and system-level instructions. We further propose RIFL (Rubric-based Instruction-Following Learning), a novel post-training pipeline that leverages rubric generation, a finetuned rubric verifier, and reward shaping to enable effective reinforcement learning for instruction following. Extensive experiments demonstrate that RIFL substantially improves the instruction-following abilities of LLMs, achieving a 6.7% absolute gain on AdvancedIF and strong results on public benchmarks. Our ablation studies confirm the effectiveness of each component in RIFL. This work establishes rubrics as a powerful tool for both training and evaluating advanced IF in LLMs, paving the way for more capable and reliable AI systems.