ChatPaper.aiChatPaper

Évaluation par critères et apprentissage par renforcement pour améliorer le suivi des instructions par les LLM

Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

November 13, 2025
papers.authors: Yun He, Wenzhe Li, Hejia Zhang, Songlin Li, Karishma Mandyam, Sopan Khosla, Yuanhao Xiong, Nanshu Wang, Selina Peng, Beibin Li, Shengjie Bi, Shishir G. Patil, Qi Qi, Shengyu Feng, Julian Katz-Samuels, Richard Yuanzhe Pang, Sujan Gonugondla, Hunter Lang, Yue Yu, Yundi Qian, Maryam Fazel-Zarandi, Licheng Yu, Amine Benhalloum, Hany Awadalla, Manaal Faruqui
cs.AI

papers.abstract

Les récents progrès des grands modèles de langage (LLM) ont conduit à des performances impressionnantes sur une série de tâches, mais la capacité à suivre des instructions avancées (IF) – en particulier pour des instructions complexes, multi-tours et intégrant des *prompts* système – reste un défi majeur. L'évaluation rigoureuse et l'entraînement efficace de ces capacités sont entravés par le manque de benchmarks de haute qualité, annotés par des humains, et de signaux de récompense fiables et interprétables. Dans ce travail, nous présentons AdvancedIF (nous publierons ce benchmark prochainement), un benchmark complet comprenant plus de 1 600 *prompts* et des grilles d'évaluation expertes qui évaluent la capacité des LLM à suivre des instructions complexes, multi-tours et de niveau système. Nous proposons en outre RIFL (*Rubric-based Instruction-Following Learning*), un nouveau pipeline de post-entraînement qui exploite la génération de grilles d'évaluation, un vérificateur de grilles *finetuné* et un *reward shaping* pour permettre un apprentissage par renforcement efficace du suivi d'instructions. Des expériences approfondies démontrent que RIFL améliore substantiellement les capacités de suivi d'instructions des LLM, obtenant un gain absolu de 6,7 % sur AdvancedIF et des résultats solides sur des benchmarks publics. Nos études d'ablation confirment l'efficacité de chaque composant de RIFL. Ce travail établit les grilles d'évaluation comme un outil puissant à la fois pour l'entraînement et l'évaluation du suivi d'instructions avancé dans les LLM, ouvrant la voie à des systèmes d'IA plus performants et plus fiables.
English
Recent progress in large language models (LLMs) has led to impressive performance on a range of tasks, yet advanced instruction following (IF)-especially for complex, multi-turn, and system-prompted instructions-remains a significant challenge. Rigorous evaluation and effective training for such capabilities are hindered by the lack of high-quality, human-annotated benchmarks and reliable, interpretable reward signals. In this work, we introduce AdvancedIF (we will release this benchmark soon), a comprehensive benchmark featuring over 1,600 prompts and expert-curated rubrics that assess LLMs ability to follow complex, multi-turn, and system-level instructions. We further propose RIFL (Rubric-based Instruction-Following Learning), a novel post-training pipeline that leverages rubric generation, a finetuned rubric verifier, and reward shaping to enable effective reinforcement learning for instruction following. Extensive experiments demonstrate that RIFL substantially improves the instruction-following abilities of LLMs, achieving a 6.7% absolute gain on AdvancedIF and strong results on public benchmarks. Our ablation studies confirm the effectiveness of each component in RIFL. This work establishes rubrics as a powerful tool for both training and evaluating advanced IF in LLMs, paving the way for more capable and reliable AI systems.
PDF52December 1, 2025