Light-IF: Het uitrusten van LLM's met generaliseerbare redeneervaardigheden via voorbeeldweergave en zelfcontrole voor complexe instructieopvolging
Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following
August 5, 2025
Auteurs: Chenyang Wang, Liang Wen, Shousheng Jia, Xiangzheng Zhang, Liang Xu
cs.AI
Samenvatting
Hoewel de vooruitgang in de redeneervaardigheden van LLM's hun prestaties bij het oplossen van wiskundige problemen, programmeertaken en algemene puzzels aanzienlijk heeft verbeterd, blijft hun effectiviteit in het nauwkeurig opvolgen van instructies inconsistent, vooral bij complexere richtlijnen. Ons onderzoek identificeert lui redeneren tijdens de denkfase als de belangrijkste factor die bijdraagt aan slechte instructieopvolging. Om dit probleem te verlichten, stellen we een uitgebreid framework voor dat is ontworpen om rigoureuze redeneerprocessen mogelijk te maken, inclusief vooruitblikken en zelfcontrole, essentieel voor het voldoen aan strikte instructiebeperkingen. Specifiek genereren we eerst instructies met complexe beperkingen en passen we een filterproces toe om geldige prompts te verkrijgen, wat resulteert in drie verschillende promptdatasets gecategoriseerd als moeilijk, gemakkelijk en geslaagd. Vervolgens gebruiken we rejection sampling op de geslaagde prompts om een kleine maar hoogwaardige dataset samen te stellen, waardoor een koude-start initialisatie van het model mogelijk wordt en de aanpassing aan effectieve redeneerpatronen wordt vergemakkelijkt. Daarna passen we een entropiebehoudende supervised fine-tuning (Entropy-SFT) strategie toe, gecombineerd met token-wise entropie-adaptieve (TEA-RL) reinforcement learning, geleid door regelgebaseerde dichte beloningen. Deze aanpak moedigt het model aan om zijn redeneermechanisme te transformeren, wat uiteindelijk generaliseerbare redeneervaardigheden bevordert die vooruitblikken en zelfcontrole omvatten. Uitgebreide experimenten uitgevoerd op benchmarks voor instructieopvolging laten opmerkelijke prestatieverbeteringen zien over verschillende modelschalen. Opvallend is dat ons Light-IF-32B model zowel grotere open-source modellen zoals DeepSeek-R1 als closed-source modellen zoals Doubao-1.6 overtreft.
English
While advancements in the reasoning abilities of LLMs have significantly
enhanced their performance in solving mathematical problems, coding tasks, and
general puzzles, their effectiveness in accurately adhering to instructions
remains inconsistent, particularly with more complex directives. Our
investigation identifies lazy reasoning during the thinking stage as the
primary factor contributing to poor instruction adherence. To mitigate this
issue, we propose a comprehensive framework designed to enable rigorous
reasoning processes involving preview and self-checking, essential for
satisfying strict instruction constraints. Specifically, we first generate
instructions with complex constraints and apply a filtering process to obtain
valid prompts, resulting in three distinct prompt datasets categorized as hard,
easy, and pass. Then, we employ rejection sampling on the pass prompts to
curate a small yet high-quality dataset, enabling a cold-start initialization
of the model and facilitating its adaptation to effective reasoning patterns.
Subsequently, we employ an entropy-preserving supervised fine-tuning
(Entropy-SFT) strategy coupled with token-wise entropy-adaptive (TEA-RL)
reinforcement learning guided by rule-based dense rewards. This approach
encourages the model to transform its reasoning mechanism, ultimately fostering
generalizable reasoning abilities that encompass preview and self-checking.
Extensive experiments conducted on instruction-following benchmarks demonstrate
remarkable performance improvements across various model scales. Notably, our
Light-IF-32B model surpasses both larger open-source models such as DeepSeek-R1
and closed-source models like Doubao-1.6.