IFDECORATOR: 검증 가능한 보상으로 명령어 수행 강화 학습을 감싸기
IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards
August 6, 2025
저자: Xu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen
cs.AI
초록
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 명령어 수행 능력을 향상시키지만, 난이도 평가의 부적절함으로 인해 학습 효율성이 떨어지는 문제가 있습니다. 또한 RLVR은 과도한 최적화 경향이 있어, LLM이 사용자 명령어의 실제 의도와 일치하지 않으면서 검증 단축키를 악용하는 경우가 발생합니다. 본 연구에서는 RLVR 학습을 견고하고 샘플 효율적인 파이프라인으로 감싸는 명령어 수행 데코레이터(IFDecorator) 프레임워크를 소개합니다. 이 프레임워크는 세 가지 구성 요소로 이루어져 있습니다: (1) 협력적-적대적 데이터 플라이휠로, 명령어와 하이브리드 검증을 공동 진화시켜 점점 더 도전적인 명령어-검증 쌍을 생성합니다; (2) IntentCheck, 의도 정렬을 강제하는 우회 모듈; (3) 트립 와이어, 단축키 악용 행위를 유발하고 포착하는 트랩 명령어를 통해 보상 해킹을 탐지하는 진단 메커니즘입니다. 우리의 Qwen2.5-32B-Instruct-IFDecorator는 IFEval에서 87.43%의 정확도를 달성하며, GPT-4o와 같은 더 큰 규모의 독점 모델을 능가합니다. 또한 FollowBench에서 상당한 개선을 보이면서도 일반적인 능력을 유지합니다. 우리의 트립 와이어는 보상 해킹 비율을 크게 감소시켰습니다. 향후 연구를 위해 모델, 코드, 데이터를 공개할 예정입니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) improves instruction
following capabilities of large language models (LLMs), but suffers from
training inefficiency due to inadequate difficulty assessment. Moreover, RLVR
is prone to over-optimization, where LLMs exploit verification shortcuts
without aligning to the actual intent of user instructions. We introduce
Instruction Following Decorator (IFDecorator}, a framework that wraps RLVR
training into a robust and sample-efficient pipeline. It consists of three
components: (1) a cooperative-adversarial data flywheel that co-evolves
instructions and hybrid verifications, generating progressively more
challenging instruction-verification pairs; (2) IntentCheck, a bypass module
enforcing intent alignment; and (3) trip wires, a diagnostic mechanism that
detects reward hacking via trap instructions, which trigger and capture
shortcut exploitation behaviors. Our Qwen2.5-32B-Instruct-IFDecorator achieves
87.43% accuracy on IFEval, outperforming larger proprietary models such as
GPT-4o. Additionally, we demonstrate substantial improvements on FollowBench
while preserving general capabilities. Our trip wires show significant
reductions in reward hacking rates. We will release models, code, and data for
future research.