Referenciação Baseada em Rúbrica e Aprendizagem por Reforço para Avançar a Capacidade de Seguir Instruções em LLMs
Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following
November 13, 2025
Autores: Yun He, Wenzhe Li, Hejia Zhang, Songlin Li, Karishma Mandyam, Sopan Khosla, Yuanhao Xiong, Nanshu Wang, Selina Peng, Beibin Li, Shengjie Bi, Shishir G. Patil, Qi Qi, Shengyu Feng, Julian Katz-Samuels, Richard Yuanzhe Pang, Sujan Gonugondla, Hunter Lang, Yue Yu, Yundi Qian, Maryam Fazel-Zarandi, Licheng Yu, Amine Benhalloum, Hany Awadalla, Manaal Faruqui
cs.AI
Resumo
Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm resultado em desempenhos impressionantes em uma série de tarefas, mas a capacidade avançada de seguir instruções (IF) – especialmente para instruções complexas, de múltiplos turnos e com *prompts* de sistema – continua a ser um desafio significativo. A avaliação rigorosa e o treinamento eficaz para tais capacidades são dificultados pela falta de *benchmarks* de alta qualidade anotados por humanos e de sinais de recomposta confiáveis e interpretáveis. Neste trabalho, introduzimos o AdvancedIF (que disponibilizaremos em breve), um *benchmark* abrangente com mais de 1.600 *prompts* e rubricas curadas por especialistas que avaliam a capacidade dos LLMs de seguir instruções complexas, de múltiplos turnos e em nível de sistema. Propomos ainda o RIFL (Aprendizado de Seguimento de Instruções baseado em Rúbricas), um novo *pipeline* de pós-treinamento que aproveita a geração de rubricas, um verificador de rubricas afinado e a modelagem de recompensas para permitir um aprendizado por reforço eficaz para o seguimento de instruções. Experimentos extensivos demonstram que o RIFL melhora substancialmente as capacidades de seguimento de instruções dos LLMs, alcançando um ganho absoluto de 6,7% no AdvancedIF e resultados sólidos em *benchmarks* públicos. Nossos estudos de ablação confirmam a eficácia de cada componente do RIFL. Este trabalho estabelece as rubricas como uma ferramenta poderosa tanto para o treinamento quanto para a avaliação da IF avançada em LLMs, abrindo caminho para sistemas de IA mais capazes e confiáveis.
English
Recent progress in large language models (LLMs) has led to impressive performance on a range of tasks, yet advanced instruction following (IF)-especially for complex, multi-turn, and system-prompted instructions-remains a significant challenge. Rigorous evaluation and effective training for such capabilities are hindered by the lack of high-quality, human-annotated benchmarks and reliable, interpretable reward signals. In this work, we introduce AdvancedIF (we will release this benchmark soon), a comprehensive benchmark featuring over 1,600 prompts and expert-curated rubrics that assess LLMs ability to follow complex, multi-turn, and system-level instructions. We further propose RIFL (Rubric-based Instruction-Following Learning), a novel post-training pipeline that leverages rubric generation, a finetuned rubric verifier, and reward shaping to enable effective reinforcement learning for instruction following. Extensive experiments demonstrate that RIFL substantially improves the instruction-following abilities of LLMs, achieving a 6.7% absolute gain on AdvancedIF and strong results on public benchmarks. Our ablation studies confirm the effectiveness of each component in RIFL. This work establishes rubrics as a powerful tool for both training and evaluating advanced IF in LLMs, paving the way for more capable and reliable AI systems.