대규모 언어 모델의 고급 명령어 수행을 위한 추론 능력 강화
Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models
June 2, 2025
저자: Yulei Qin, Gang Li, Zongyi Li, Zihan Xu, Yuchen Shi, Zhekai Lin, Xiao Cui, Ke Li, Xing Sun
cs.AI
초록
기존의 대형 언어 모델(LLMs)은 복잡한 지시를 따르는 데 어려움을 겪고 있으며, 특히 여러 제약 조건이 병렬, 연쇄, 분기 구조로 조직된 경우 더욱 그러합니다. 직관적인 해결책 중 하나인 사고의 연쇄(Chain-of-Thought, CoT)는 LLM의 능력을 보편적으로 향상시킬 것으로 기대됩니다. 그러나 우리는 기본적인 CoT가 단순히 지시를 재구성하는 피상적인 추론 패턴으로 인해 성능에 부정적인 영향을 미친다는 사실을 발견했습니다. 이는 제약 조건의 구성을 파헤쳐 유형과 차원의 계층 구조 간 관계를 식별하지 못하기 때문입니다. 이를 해결하기 위해, 우리는 테스트 시간 계산 확장을 위한 추론을 유도함으로써 복잡한 지시를 다루는 LLM의 성능을 향상시키는 체계적인 방법을 제안합니다. 첫째, 기존 분류 체계 하에서 복잡한 지시를 분해하고 재현 가능한 데이터 수집 방법을 제안합니다. 둘째, 검증 가능한 규칙 중심의 보상 신호를 활용한 강화 학습(Reinforcement Learning, RL)을 통해 지시를 따르는 데 특화된 추론 능력을 배양합니다. 우리는 복잡한 지시 하에서의 피상적이고 비본질적인 추론의 문제를 샘플 간 대조를 통해 우수한 CoT 강화로 해결합니다. 또한 전문가의 행동 복제(Behavior Cloning)를 활용하여 빠른 사고를 하는 LLM에서 숙련된 추론자로의 안정적인 분포 이동을 촉진합니다. 7개의 포괄적인 벤치마크에서의 광범위한 평가는 제안된 방법의 타당성을 확인하며, 1.5B 규모의 LLM이 8B 규모의 LLM과 비슷한 성능을 보이면서 11.74%의 성능 향상을 달성했습니다. 코드와 데이터는 https://github.com/yuleiqin/RAIF에서 확인할 수 있습니다.
English
Existing large language models (LLMs) face challenges of following complex
instructions, especially when multiple constraints are present and organized in
paralleling, chaining, and branching structures. One intuitive solution, namely
chain-of-thought (CoT), is expected to universally improve capabilities of
LLMs. However, we find that the vanilla CoT exerts a negative impact on
performance due to its superficial reasoning pattern of simply paraphrasing the
instructions. It fails to peel back the compositions of constraints for
identifying their relationship across hierarchies of types and dimensions. To
this end, we propose a systematic method to boost LLMs in dealing with complex
instructions via incentivizing reasoning for test-time compute scaling. First,
we stem from the decomposition of complex instructions under existing
taxonomies and propose a reproducible data acquisition method. Second, we
exploit reinforcement learning (RL) with verifiable rule-centric reward signals
to cultivate reasoning specifically for instruction following. We address the
shallow, non-essential nature of reasoning under complex instructions via
sample-wise contrast for superior CoT enforcement. We also exploit behavior
cloning of experts to facilitate steady distribution shift from fast-thinking
LLMs to skillful reasoners. Extensive evaluations on seven comprehensive
benchmarks confirm the validity of the proposed method, where a 1.5B LLM
achieves 11.74% gains with performance comparable to a 8B LLM. Codes and data
are available at https://github.com/yuleiqin/RAIF.