LLM 지시 수행 능력 향상을 위한 루브릭 기반 벤치마킹 및 강화 학습
Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following
November 13, 2025
저자: Yun He, Wenzhe Li, Hejia Zhang, Songlin Li, Karishma Mandyam, Sopan Khosla, Yuanhao Xiong, Nanshu Wang, Selina Peng, Beibin Li, Shengjie Bi, Shishir G. Patil, Qi Qi, Shengyu Feng, Julian Katz-Samuels, Richard Yuanzhe Pang, Sujan Gonugondla, Hunter Lang, Yue Yu, Yundi Qian, Maryam Fazel-Zarandi, Licheng Yu, Amine Benhalloum, Hany Awadalla, Manaal Faruqui
cs.AI
초록
대규모 언어 모델(LLM)의 최근 발전은 다양한 과제에서 인상적인 성능을 보여주고 있지만, 특히 복잡하고 다중 턴이며 시스템 프롬프트가 포함된 고급 명령어 수행(IF) 능력은 여전히 큰 과제로 남아 있습니다. 이러한 능력에 대한 엄격한 평가와 효과적인 훈련은 고품질의 인간 주석 데이터 벤치마크와 신뢰할 수 있으며 해석 가능한 보상 신호의 부족으로 어려움을 겪고 있습니다. 본 연구에서는 1,600개 이상의 프롬프트와 전문가가 검수한 채점 기준을 통해 LLM의 복잡한 다중 턴 및 시스템 수준 명령어 수행 능력을 평가하는 포괄적인 벤치마크인 AdvancedIF(곧 공개 예정)를 소개합니다. 더 나아가, 채점 기준 생성, 미세 조정된 채점 기준 검증기, 보상 형상을 활용하여 명령어 수행을 위한 효과적인 강화 학습을 가능하게 하는 새로운 사후 훈련 파이프라인인 RIFL(규준 기반 명령어 수행 학습)을 제안합니다. 광범위한 실험을 통해 RIFL이 LLM의 명령어 수행 능력을 크게 향상시켜 AdvancedIF에서 6.7%의 절대적 성능 향상을 달성하고 공개 벤치마크에서도 강력한 결과를 보여줌을 입증했습니다. ablation 연구를 통해 RIFL의 각 구성 요소의 효과를 확인하였습니다. 본 연구는 채점 기준이 LLM의 고급 명령어 수행 능력을 훈련하고 평가하는 강력한 도구임을 입증하며, 더 유능하고 신뢰할 수 있는 AI 시스템 개발의 길을 열어줍니다.
English
Recent progress in large language models (LLMs) has led to impressive performance on a range of tasks, yet advanced instruction following (IF)-especially for complex, multi-turn, and system-prompted instructions-remains a significant challenge. Rigorous evaluation and effective training for such capabilities are hindered by the lack of high-quality, human-annotated benchmarks and reliable, interpretable reward signals. In this work, we introduce AdvancedIF (we will release this benchmark soon), a comprehensive benchmark featuring over 1,600 prompts and expert-curated rubrics that assess LLMs ability to follow complex, multi-turn, and system-level instructions. We further propose RIFL (Rubric-based Instruction-Following Learning), a novel post-training pipeline that leverages rubric generation, a finetuned rubric verifier, and reward shaping to enable effective reinforcement learning for instruction following. Extensive experiments demonstrate that RIFL substantially improves the instruction-following abilities of LLMs, achieving a 6.7% absolute gain on AdvancedIF and strong results on public benchmarks. Our ablation studies confirm the effectiveness of each component in RIFL. This work establishes rubrics as a powerful tool for both training and evaluating advanced IF in LLMs, paving the way for more capable and reliable AI systems.