LLM 추론을 위한 미니멀리스트 접근법: 거부 샘플링부터 강화 학습까지
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce
April 15, 2025
저자: Wei Xiong, Jiarui Yao, Yuhui Xu, Bo Pang, Lei Wang, Doyen Sahoo, Junnan Li, Nan Jiang, Tong Zhang, Caiming Xiong, Hanze Dong
cs.AI
초록
강화 학습(Reinforcement Learning, RL)은 복잡한 추론 작업에서 대규모 언어 모델(Large Language Models, LLMs)을 미세 조정하기 위한 주류 접근법으로 자리 잡았습니다. 최근 방법론 중 GRPO는 DeepSeek-R1과 같은 모델 훈련에서 실질적인 성공을 거두었으나, 그 효과의 근원은 여전히 잘 이해되지 않고 있습니다. 본 연구에서는 GRPO를 강화 학습 유사 알고리즘의 관점에서 재조명하고 그 핵심 구성 요소를 분석합니다. 놀랍게도, 긍정적으로 보상된 샘플만을 훈련에 사용하는 간단한 거부 샘플링 기반 방법인 RAFT가 GRPO와 PPO에 비해 경쟁력 있는 성능을 보이는 것을 발견했습니다. 우리의 제거 연구(ablation study)는 GRPO의 주요 이점이 보상 정규화에서 기인하는 것이 아니라, 완전히 잘못된 응답을 포함한 프롬프트를 제거하는 데서 비롯됨을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 완전히 잘못된 샘플과 완전히 정확한 샘플을 모두 필터링하는 정책 경사(policy gradient)의 최소한의 확장인 Reinforce-Rej를 제안합니다. Reinforce-Rej는 KL 효율성과 안정성을 개선하며, 더 복잡한 RL 알고리즘에 비해 가볍고 효과적인 대안으로서의 역할을 합니다. 우리는 RAFT를 강력하고 해석 가능한 기준선으로 제안하며, 향후 연구에서는 부정적인 샘플을 무분별하게 사용하기보다는 이를 통합하는 더 원칙적인 설계에 초점을 맞출 것을 제안합니다. 본 연구의 결과는 보상 기반 LLM 사후 훈련(post-training)을 위한 미래 연구에 지침을 제공합니다.
English
Reinforcement learning (RL) has become a prevailing approach for fine-tuning
large language models (LLMs) on complex reasoning tasks. Among recent methods,
GRPO stands out for its empirical success in training models such as
DeepSeek-R1, yet the sources of its effectiveness remain poorly understood. In
this work, we revisit GRPO from a reinforce-like algorithm perspective and
analyze its core components. Surprisingly, we find that a simple rejection
sampling baseline, RAFT, which trains only on positively rewarded samples,
yields competitive performance than GRPO and PPO. Our ablation studies reveal
that GRPO's main advantage arises from discarding prompts with entirely
incorrect responses, rather than from its reward normalization. Motivated by
this insight, we propose Reinforce-Rej, a minimal extension of policy gradient
that filters both entirely incorrect and entirely correct samples.
Reinforce-Rej improves KL efficiency and stability, serving as a lightweight
yet effective alternative to more complex RL algorithms. We advocate RAFT as a
robust and interpretable baseline, and suggest that future advances should
focus on more principled designs for incorporating negative samples, rather
than relying on them indiscriminately. Our findings provide guidance for future
work in reward-based LLM post-training.Summary
AI-Generated Summary