Het stimuleren van redeneren voor geavanceerde instructievolging van grote taalmodellen
Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models
June 2, 2025
Auteurs: Yulei Qin, Gang Li, Zongyi Li, Zihan Xu, Yuchen Shi, Zhekai Lin, Xiao Cui, Ke Li, Xing Sun
cs.AI
Samenvatting
Bestaande grote taalmodellen (LLMs) hebben moeite met het volgen van complexe instructies, vooral wanneer meerdere beperkingen aanwezig zijn en georganiseerd zijn in parallelle, ketting- en vertakkende structuren. Een intuïtieve oplossing, namelijk chain-of-thought (CoT), wordt verwacht de capaciteiten van LLMs universeel te verbeteren. Echter, wij constateren dat de standaard CoT een negatieve impact heeft op de prestaties vanwege het oppervlakkige redeneerpatroon dat simpelweg de instructies parafraseert. Het slaagt er niet in de samenstellingen van beperkingen te ontleden om hun relatie over hiërarchieën van typen en dimensies te identificeren. Daarom stellen wij een systematische methode voor om LLMs te verbeteren in het omgaan met complexe instructies door redeneren te stimuleren voor schaling van rekentijd tijdens testen. Ten eerste vertrekken wij vanuit de ontleding van complexe instructies onder bestaande taxonomieën en stellen wij een reproduceerbare methode voor gegevensverwerving voor. Ten tweede benutten wij reinforcement learning (RL) met verifieerbare regelgerichte beloningssignalen om specifiek redeneren voor het volgen van instructies te cultiveren. Wij pakken het oppervlakkige, niet-essentiële karakter van redeneren onder complexe instructies aan via steekproefgewijs contrast voor superieure CoT-handhaving. Wij benutten ook gedragskloning van experts om een gestage verschuiving in distributie te faciliteren van sneldenkende LLMs naar vaardige redeneerders. Uitgebreide evaluaties op zeven uitgebreide benchmarks bevestigen de geldigheid van de voorgestelde methode, waarbij een 1.5B LLM een winst van 11.74% behaalt met prestaties vergelijkbaar met een 8B LLM. Codes en gegevens zijn beschikbaar op https://github.com/yuleiqin/RAIF.
English
Existing large language models (LLMs) face challenges of following complex
instructions, especially when multiple constraints are present and organized in
paralleling, chaining, and branching structures. One intuitive solution, namely
chain-of-thought (CoT), is expected to universally improve capabilities of
LLMs. However, we find that the vanilla CoT exerts a negative impact on
performance due to its superficial reasoning pattern of simply paraphrasing the
instructions. It fails to peel back the compositions of constraints for
identifying their relationship across hierarchies of types and dimensions. To
this end, we propose a systematic method to boost LLMs in dealing with complex
instructions via incentivizing reasoning for test-time compute scaling. First,
we stem from the decomposition of complex instructions under existing
taxonomies and propose a reproducible data acquisition method. Second, we
exploit reinforcement learning (RL) with verifiable rule-centric reward signals
to cultivate reasoning specifically for instruction following. We address the
shallow, non-essential nature of reasoning under complex instructions via
sample-wise contrast for superior CoT enforcement. We also exploit behavior
cloning of experts to facilitate steady distribution shift from fast-thinking
LLMs to skillful reasoners. Extensive evaluations on seven comprehensive
benchmarks confirm the validity of the proposed method, where a 1.5B LLM
achieves 11.74% gains with performance comparable to a 8B LLM. Codes and data
are available at https://github.com/yuleiqin/RAIF.