Valutazione Basata su Rubrica e Apprendimento per Rinforzo per Migliorare la Capacità dei LLM di Seguire le Istruzioni
Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following
November 13, 2025
Autori: Yun He, Wenzhe Li, Hejia Zhang, Songlin Li, Karishma Mandyam, Sopan Khosla, Yuanhao Xiong, Nanshu Wang, Selina Peng, Beibin Li, Shengjie Bi, Shishir G. Patil, Qi Qi, Shengyu Feng, Julian Katz-Samuels, Richard Yuanzhe Pang, Sujan Gonugondla, Hunter Lang, Yue Yu, Yundi Qian, Maryam Fazel-Zarandi, Licheng Yu, Amine Benhalloum, Hany Awadalla, Manaal Faruqui
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno portato a prestazioni impressionanti in una serie di compiti, tuttavia, la capacità avanzata di seguire istruzioni (IF) – specialmente per istruzioni complesse, multi-turno e guidate da prompt di sistema – rimane una sfida significativa. Una valutazione rigorosa e un addestramento efficace per tali capacità sono ostacolati dalla mancanza di benchmark di alta qualità, annotati da esseri umani, e di segnali di ricompensa affidabili e interpretabili. In questo lavoro, introduciamo AdvancedIF (renderemo presto pubblico questo benchmark), un benchmark completo che presenta oltre 1.600 prompt e rubriche curate da esperti che valutano la capacità degli LLM di seguire istruzioni complesse, multi-turno e a livello di sistema. Proponiamo inoltre RIFL (Rubric-based Instruction-Following Learning), una nuova pipeline di post-training che sfrutta la generazione di rubriche, un verificatore di rubriche raffinato e il reward shaping per abilitare un efficace apprendimento per rinforzo per il seguire le istruzioni. Esperimenti estensivi dimostrano che RIFL migliora sostanzialmente le capacità di seguire le istruzioni degli LLM, ottenendo un guadagno assoluto del 6.7% su AdvancedIF e risultati solidi su benchmark pubblici. I nostri studi di ablazione confermano l'efficacia di ogni componente in RIFL. Questo lavoro stabilisce le rubriche come uno strumento potente sia per l'addestramento che per la valutazione dell'IF avanzato negli LLM, aprendo la strada a sistemi di IA più capaci e affidabili.
English
Recent progress in large language models (LLMs) has led to impressive performance on a range of tasks, yet advanced instruction following (IF)-especially for complex, multi-turn, and system-prompted instructions-remains a significant challenge. Rigorous evaluation and effective training for such capabilities are hindered by the lack of high-quality, human-annotated benchmarks and reliable, interpretable reward signals. In this work, we introduce AdvancedIF (we will release this benchmark soon), a comprehensive benchmark featuring over 1,600 prompts and expert-curated rubrics that assess LLMs ability to follow complex, multi-turn, and system-level instructions. We further propose RIFL (Rubric-based Instruction-Following Learning), a novel post-training pipeline that leverages rubric generation, a finetuned rubric verifier, and reward shaping to enable effective reinforcement learning for instruction following. Extensive experiments demonstrate that RIFL substantially improves the instruction-following abilities of LLMs, achieving a 6.7% absolute gain on AdvancedIF and strong results on public benchmarks. Our ablation studies confirm the effectiveness of each component in RIFL. This work establishes rubrics as a powerful tool for both training and evaluating advanced IF in LLMs, paving the way for more capable and reliable AI systems.