ChatPaper.aiChatPaper

Un enfoque minimalista para el razonamiento en LLM: desde el muestreo por rechazo hasta el refuerzo

A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

April 15, 2025
Autores: Wei Xiong, Jiarui Yao, Yuhui Xu, Bo Pang, Lei Wang, Doyen Sahoo, Junnan Li, Nan Jiang, Tong Zhang, Caiming Xiong, Hanze Dong
cs.AI

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un enfoque predominante para el ajuste fino de modelos de lenguaje grandes (LLMs) en tareas de razonamiento complejo. Entre los métodos recientes, GRPO destaca por su éxito empírico en el entrenamiento de modelos como DeepSeek-R1, aunque las fuentes de su efectividad siguen siendo poco comprendidas. En este trabajo, revisitamos GRPO desde una perspectiva de algoritmo similar a refuerzo y analizamos sus componentes principales. Sorprendentemente, encontramos que una línea base simple de muestreo por rechazo, RAFT, que entrena únicamente con muestras positivamente recompensadas, ofrece un rendimiento competitivo en comparación con GRPO y PPO. Nuestros estudios de ablación revelan que la principal ventaja de GRPO surge de descartar indicaciones con respuestas completamente incorrectas, en lugar de su normalización de recompensas. Motivados por esta observación, proponemos Reinforce-Rej, una extensión mínima del gradiente de políticas que filtra tanto las muestras completamente incorrectas como las completamente correctas. Reinforce-Rej mejora la eficiencia y estabilidad de la divergencia KL, sirviendo como una alternativa ligera pero efectiva a algoritmos de RL más complejos. Defendemos RAFT como una línea base robusta e interpretable, y sugerimos que los avances futuros deberían centrarse en diseños más fundamentados para incorporar muestras negativas, en lugar de depender de ellas indiscriminadamente. Nuestros hallazgos proporcionan orientación para trabajos futuros en el post-entrenamiento de LLMs basado en recompensas.
English
Reinforcement learning (RL) has become a prevailing approach for fine-tuning large language models (LLMs) on complex reasoning tasks. Among recent methods, GRPO stands out for its empirical success in training models such as DeepSeek-R1, yet the sources of its effectiveness remain poorly understood. In this work, we revisit GRPO from a reinforce-like algorithm perspective and analyze its core components. Surprisingly, we find that a simple rejection sampling baseline, RAFT, which trains only on positively rewarded samples, yields competitive performance than GRPO and PPO. Our ablation studies reveal that GRPO's main advantage arises from discarding prompts with entirely incorrect responses, rather than from its reward normalization. Motivated by this insight, we propose Reinforce-Rej, a minimal extension of policy gradient that filters both entirely incorrect and entirely correct samples. Reinforce-Rej improves KL efficiency and stability, serving as a lightweight yet effective alternative to more complex RL algorithms. We advocate RAFT as a robust and interpretable baseline, and suggest that future advances should focus on more principled designs for incorporating negative samples, rather than relying on them indiscriminately. Our findings provide guidance for future work in reward-based LLM post-training.

Summary

AI-Generated Summary

PDF146April 16, 2025