ルーブリックに基づくベンチマーキングと強化学習による大規模言語モデルの指示追従性能の向上
Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following
November 13, 2025
著者: Yun He, Wenzhe Li, Hejia Zhang, Songlin Li, Karishma Mandyam, Sopan Khosla, Yuanhao Xiong, Nanshu Wang, Selina Peng, Beibin Li, Shengjie Bi, Shishir G. Patil, Qi Qi, Shengyu Feng, Julian Katz-Samuels, Richard Yuanzhe Pang, Sujan Gonugondla, Hunter Lang, Yue Yu, Yundi Qian, Maryam Fazel-Zarandi, Licheng Yu, Amine Benhalloum, Hany Awadalla, Manaal Faruqui
cs.AI
要旨
大規模言語モデル(LLM)の近年の進展は、様々なタスクにおいて印象的な性能をもたらしているが、高度な指示追従(IF)能力、特に複雑でマルチターン、システムプロンプトを伴う指示への対応は、依然として大きな課題である。こうした能力に対する厳密な評価と効果的な学習は、高品質な人手注釈ベンチマークと信頼性が高く解釈可能な報酬信号の不足によって妨げられている。本研究では、1,600以上のプロンプトと専門家によって精選された評価基準を特徴とする包括的ベンチマーク、AdvancedIF(近日公開予定)を提案する。これはLLMの複雑なマルチターン指示およびシステムレベル指示への追従能力を評価する。さらに我々は、評価基準生成、ファインチューニングされた評価基準検証器、報酬形成を活用して、指示追従のための効果的な強化学習を可能にする新しい学習後パイプライン、RIFL(Rubric-based Instruction-Following Learning)を提案する。大規模な実験により、RIFLがLLMの指示追従能力を大幅に改善し、AdvancedIFにおいて6.7%の絶対的な性能向上を達成し、公開ベンチマークでも強い結果を示すことを実証する。 ablation studyにより、RIFLの各コンポーネントの有効性が確認された。本研究は、評価基準がLLMの高度なIF能力の学習と評価の両方における強力なツールであることを示し、より能力が高く信頼性のあるAIシステムへの道を開くものである。
English
Recent progress in large language models (LLMs) has led to impressive performance on a range of tasks, yet advanced instruction following (IF)-especially for complex, multi-turn, and system-prompted instructions-remains a significant challenge. Rigorous evaluation and effective training for such capabilities are hindered by the lack of high-quality, human-annotated benchmarks and reliable, interpretable reward signals. In this work, we introduce AdvancedIF (we will release this benchmark soon), a comprehensive benchmark featuring over 1,600 prompts and expert-curated rubrics that assess LLMs ability to follow complex, multi-turn, and system-level instructions. We further propose RIFL (Rubric-based Instruction-Following Learning), a novel post-training pipeline that leverages rubric generation, a finetuned rubric verifier, and reward shaping to enable effective reinforcement learning for instruction following. Extensive experiments demonstrate that RIFL substantially improves the instruction-following abilities of LLMs, achieving a 6.7% absolute gain on AdvancedIF and strong results on public benchmarks. Our ablation studies confirm the effectiveness of each component in RIFL. This work establishes rubrics as a powerful tool for both training and evaluating advanced IF in LLMs, paving the way for more capable and reliable AI systems.