Рубричное бенчмаркинг и обучение с подкреплением для улучшения следования инструкциям в больших языковых моделях
Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following
November 13, 2025
Авторы: Yun He, Wenzhe Li, Hejia Zhang, Songlin Li, Karishma Mandyam, Sopan Khosla, Yuanhao Xiong, Nanshu Wang, Selina Peng, Beibin Li, Shengjie Bi, Shishir G. Patil, Qi Qi, Shengyu Feng, Julian Katz-Samuels, Richard Yuanzhe Pang, Sujan Gonugondla, Hunter Lang, Yue Yu, Yundi Qian, Maryam Fazel-Zarandi, Licheng Yu, Amine Benhalloum, Hany Awadalla, Manaal Faruqui
cs.AI
Аннотация
Недавние успехи в области больших языковых моделей (LLM) привели к впечатляющим результатам в решении широкого круга задач, однако продвинутое следование инструкциям (IF) — особенно сложным, многошаговым и системным — остаётся серьёзной проблемой. Тщательная оценка и эффективное обучение таким способностям затруднены из-за отсутствия высококачественных размеченных человеком бенчмарков и надёжных, интерпретируемых сигналов вознаграждения. В данной работе мы представляем AdvancedIF (мы скоро выпустим этот бенчмарк), комплексный бенчмарк, содержащий более 1600 промптов и экспертные критерии оценки, которые измеряют способность LLM следовать сложным, многошаговым и системным инструкциям. Мы также предлагаем RIFL (Rubric-based Instruction-Following Learning), новый пост-тренировочный конвейер, который использует генерацию критериев, тонко настроенный верификатор критериев и формирование вознаграждения для обеспечения эффективного обучения с подкреплением для следования инструкциям. Многочисленные эксперименты демонстрируют, что RIFL существенно улучшает способности LLM к следованию инструкциям, показывая абсолютный прирост в 6.7% на AdvancedIF и высокие результаты на публичных бенчмарках. Наши исследования абляции подтверждают эффективность каждого компонента RIFL. Эта работа устанавливает критерии оценки как мощный инструмент как для обучения, так и для оценки продвинутого следования инструкциям в LLM, прокладывая путь к созданию более способных и надёжных систем искусственного интеллекта.
English
Recent progress in large language models (LLMs) has led to impressive performance on a range of tasks, yet advanced instruction following (IF)-especially for complex, multi-turn, and system-prompted instructions-remains a significant challenge. Rigorous evaluation and effective training for such capabilities are hindered by the lack of high-quality, human-annotated benchmarks and reliable, interpretable reward signals. In this work, we introduce AdvancedIF (we will release this benchmark soon), a comprehensive benchmark featuring over 1,600 prompts and expert-curated rubrics that assess LLMs ability to follow complex, multi-turn, and system-level instructions. We further propose RIFL (Rubric-based Instruction-Following Learning), a novel post-training pipeline that leverages rubric generation, a finetuned rubric verifier, and reward shaping to enable effective reinforcement learning for instruction following. Extensive experiments demonstrate that RIFL substantially improves the instruction-following abilities of LLMs, achieving a 6.7% absolute gain on AdvancedIF and strong results on public benchmarks. Our ablation studies confirm the effectiveness of each component in RIFL. This work establishes rubrics as a powerful tool for both training and evaluating advanced IF in LLMs, paving the way for more capable and reliable AI systems.