ChatPaper.aiChatPaper

Rubrik-basiertes Benchmarking und Reinforcement Learning zur Verbesserung der Befolgung von Anweisungen durch LLMs

Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

November 13, 2025
papers.authors: Yun He, Wenzhe Li, Hejia Zhang, Songlin Li, Karishma Mandyam, Sopan Khosla, Yuanhao Xiong, Nanshu Wang, Selina Peng, Beibin Li, Shengjie Bi, Shishir G. Patil, Qi Qi, Shengyu Feng, Julian Katz-Samuels, Richard Yuanzhe Pang, Sujan Gonugondla, Hunter Lang, Yue Yu, Yundi Qian, Maryam Fazel-Zarandi, Licheng Yu, Amine Benhalloum, Hany Awadalla, Manaal Faruqui
cs.AI

papers.abstract

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben zu beeindruckenden Leistungen in einer Reihe von Aufgaben geführt, dennoch bleibt das Befolgen komplexer Anweisungen (Advanced Instruction Following, IF) – insbesondere bei mehrschrittigen, komplexen und systemgesteuerten Instruktionen – eine große Herausforderung. Strenge Evaluierung und effektives Training für solche Fähigkeiten werden durch den Mangel an hochwertigen, menschlich annotierten Benchmarks und zuverlässigen, interpretierbaren Belohnungssignalen erschwert. In dieser Arbeit stellen wir AdvancedIF (diesen Benchmark werden wir in Kürze veröffentlichen) vor, einen umfassenden Benchmark mit über 1.600 Prompts und expertengeprüften Bewertungsrastern, die die Fähigkeit von LLMs bewerten, komplexe, mehrschrittige und systemweite Anweisungen zu befolgen. Weiterhin schlagen wir RIFL (Rubric-based Instruction-Following Learning) vor, eine neuartige Nachtrainings-Pipeline, die Rastergenerierung, einen feinabgestimmten Rasterverifizierer und Reward Shaping nutzt, um effektives Reinforcement Learning für das Befolgen von Anweisungen zu ermöglichen. Umfangreiche Experimente zeigen, dass RIFL die Befolgung von Anweisungen durch LLMs erheblich verbessert und einen absoluten Zuwachs von 6,7 % auf AdvancedIF sowie starke Ergebnisse auf öffentlichen Benchmarks erzielt. Unsere Ablationsstudien bestätigen die Wirksamkeit jeder Komponente in RIFL. Diese Arbeit etabliert Bewertungsraster als leistungsfähiges Werkzeug sowohl für das Training als auch für die Evaluierung von fortgeschrittenem IF in LLMs und ebnet den Weg für leistungsfähigere und zuverlässigere KI-Systeme.
English
Recent progress in large language models (LLMs) has led to impressive performance on a range of tasks, yet advanced instruction following (IF)-especially for complex, multi-turn, and system-prompted instructions-remains a significant challenge. Rigorous evaluation and effective training for such capabilities are hindered by the lack of high-quality, human-annotated benchmarks and reliable, interpretable reward signals. In this work, we introduce AdvancedIF (we will release this benchmark soon), a comprehensive benchmark featuring over 1,600 prompts and expert-curated rubrics that assess LLMs ability to follow complex, multi-turn, and system-level instructions. We further propose RIFL (Rubric-based Instruction-Following Learning), a novel post-training pipeline that leverages rubric generation, a finetuned rubric verifier, and reward shaping to enable effective reinforcement learning for instruction following. Extensive experiments demonstrate that RIFL substantially improves the instruction-following abilities of LLMs, achieving a 6.7% absolute gain on AdvancedIF and strong results on public benchmarks. Our ablation studies confirm the effectiveness of each component in RIFL. This work establishes rubrics as a powerful tool for both training and evaluating advanced IF in LLMs, paving the way for more capable and reliable AI systems.
PDF52December 1, 2025