Referenciação Baseada em Rúbrica e Aprendizagem por Reforço para Avançar a Capacidade de Seguir Instruções em LLMs

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm resultado em desempenhos impressionantes em uma série de tarefas, mas a capacidade avançada de seguir instruções (IF) – especialmente para instruções complexas, de múltiplos turnos e com *prompts* de sistema – continua a ser um desafio significativo. A avaliação rigorosa e o treinamento eficaz para tais capacidades são dificultados pela falta de *benchmarks* de alta qualidade anotados por humanos e de sinais de recomposta confiáveis e interpretáveis. Neste trabalho, introduzimos o AdvancedIF (que disponibilizaremos em breve), um *benchmark* abrangente com mais de 1.600 *prompts* e rubricas curadas por especialistas que avaliam a capacidade dos LLMs de seguir instruções complexas, de múltiplos turnos e em nível de sistema. Propomos ainda o RIFL (Aprendizado de Seguimento de Instruções baseado em Rúbricas), um novo *pipeline* de pós-treinamento que aproveita a geração de rubricas, um verificador de rubricas afinado e a modelagem de recompensas para permitir um aprendizado por reforço eficaz para o seguimento de instruções. Experimentos extensivos demonstram que o RIFL melhora substancialmente as capacidades de seguimento de instruções dos LLMs, alcançando um ganho absoluto de 6,7% no AdvancedIF e resultados sólidos em *benchmarks* públicos. Nossos estudos de ablação confirmam a eficácia de cada componente do RIFL. Este trabalho estabelece as rubricas como uma ferramenta poderosa tanto para o treinamento quanto para a avaliação da IF avançada em LLMs, abrindo caminho para sistemas de IA mais capazes e confiáveis.

English

Recent progress in large language models (LLMs) has led to impressive performance on a range of tasks, yet advanced instruction following (IF)-especially for complex, multi-turn, and system-prompted instructions-remains a significant challenge. Rigorous evaluation and effective training for such capabilities are hindered by the lack of high-quality, human-annotated benchmarks and reliable, interpretable reward signals. In this work, we introduce AdvancedIF (we will release this benchmark soon), a comprehensive benchmark featuring over 1,600 prompts and expert-curated rubrics that assess LLMs ability to follow complex, multi-turn, and system-level instructions. We further propose RIFL (Rubric-based Instruction-Following Learning), a novel post-training pipeline that leverages rubric generation, a finetuned rubric verifier, and reward shaping to enable effective reinforcement learning for instruction following. Extensive experiments demonstrate that RIFL substantially improves the instruction-following abilities of LLMs, achieving a 6.7% absolute gain on AdvancedIF and strong results on public benchmarks. Our ablation studies confirm the effectiveness of each component in RIFL. This work establishes rubrics as a powerful tool for both training and evaluating advanced IF in LLMs, paving the way for more capable and reliable AI systems.

Referenciação Baseada em Rúbrica e Aprendizagem por Reforço para Avançar a Capacidade de Seguir Instruções em LLMs

Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

Resumo

Support