ChatPaper.aiChatPaper

Het stimuleren van redeneren voor geavanceerde instructievolging van grote taalmodellen

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

June 2, 2025
Auteurs: Yulei Qin, Gang Li, Zongyi Li, Zihan Xu, Yuchen Shi, Zhekai Lin, Xiao Cui, Ke Li, Xing Sun
cs.AI

Samenvatting

Bestaande grote taalmodellen (LLMs) hebben moeite met het volgen van complexe instructies, vooral wanneer meerdere beperkingen aanwezig zijn en georganiseerd zijn in parallelle, ketting- en vertakkende structuren. Een intuïtieve oplossing, namelijk chain-of-thought (CoT), wordt verwacht de capaciteiten van LLMs universeel te verbeteren. Echter, wij constateren dat de standaard CoT een negatieve impact heeft op de prestaties vanwege het oppervlakkige redeneerpatroon dat simpelweg de instructies parafraseert. Het slaagt er niet in de samenstellingen van beperkingen te ontleden om hun relatie over hiërarchieën van typen en dimensies te identificeren. Daarom stellen wij een systematische methode voor om LLMs te verbeteren in het omgaan met complexe instructies door redeneren te stimuleren voor schaling van rekentijd tijdens testen. Ten eerste vertrekken wij vanuit de ontleding van complexe instructies onder bestaande taxonomieën en stellen wij een reproduceerbare methode voor gegevensverwerving voor. Ten tweede benutten wij reinforcement learning (RL) met verifieerbare regelgerichte beloningssignalen om specifiek redeneren voor het volgen van instructies te cultiveren. Wij pakken het oppervlakkige, niet-essentiële karakter van redeneren onder complexe instructies aan via steekproefgewijs contrast voor superieure CoT-handhaving. Wij benutten ook gedragskloning van experts om een gestage verschuiving in distributie te faciliteren van sneldenkende LLMs naar vaardige redeneerders. Uitgebreide evaluaties op zeven uitgebreide benchmarks bevestigen de geldigheid van de voorgestelde methode, waarbij een 1.5B LLM een winst van 11.74% behaalt met prestaties vergelijkbaar met een 8B LLM. Codes en gegevens zijn beschikbaar op https://github.com/yuleiqin/RAIF.
English
Existing large language models (LLMs) face challenges of following complex instructions, especially when multiple constraints are present and organized in paralleling, chaining, and branching structures. One intuitive solution, namely chain-of-thought (CoT), is expected to universally improve capabilities of LLMs. However, we find that the vanilla CoT exerts a negative impact on performance due to its superficial reasoning pattern of simply paraphrasing the instructions. It fails to peel back the compositions of constraints for identifying their relationship across hierarchies of types and dimensions. To this end, we propose a systematic method to boost LLMs in dealing with complex instructions via incentivizing reasoning for test-time compute scaling. First, we stem from the decomposition of complex instructions under existing taxonomies and propose a reproducible data acquisition method. Second, we exploit reinforcement learning (RL) with verifiable rule-centric reward signals to cultivate reasoning specifically for instruction following. We address the shallow, non-essential nature of reasoning under complex instructions via sample-wise contrast for superior CoT enforcement. We also exploit behavior cloning of experts to facilitate steady distribution shift from fast-thinking LLMs to skillful reasoners. Extensive evaluations on seven comprehensive benchmarks confirm the validity of the proposed method, where a 1.5B LLM achieves 11.74% gains with performance comparable to a 8B LLM. Codes and data are available at https://github.com/yuleiqin/RAIF.
PDF152June 3, 2025