ChatPaper.aiChatPaper

Light-IF: Dotare i LLM di ragionamento generalizzabile tramite anteprima e autocontrollo per il seguire istruzioni complesse

Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

August 5, 2025
Autori: Chenyang Wang, Liang Wen, Shousheng Jia, Xiangzheng Zhang, Liang Xu
cs.AI

Abstract

Mentre i progressi nelle capacità di ragionamento dei LLM hanno significativamente migliorato le loro prestazioni nella risoluzione di problemi matematici, compiti di programmazione e puzzle generali, la loro efficacia nell'aderire accuratamente alle istruzioni rimane disomogenea, specialmente con direttive più complesse. La nostra indizione identifica il ragionamento pigro durante la fase di pensiero come il fattore principale che contribuisce a una scarsa aderenza alle istruzioni. Per mitigare questo problema, proponiamo un framework completo progettato per abilitare processi di ragionamento rigorosi che includono anteprima e autocontrollo, essenziali per soddisfare vincoli di istruzione rigorosi. Nello specifico, generiamo prima istruzioni con vincoli complessi e applichiamo un processo di filtraggio per ottenere prompt validi, risultando in tre distinti dataset di prompt categorizzati come difficili, facili e pass. Successivamente, utilizziamo il campionamento per rifiuto sui prompt pass per curare un dataset piccolo ma di alta qualità, consentendo un'inizializzazione a freddo del modello e facilitando il suo adattamento a modelli di ragionamento efficaci. In seguito, impieghiamo una strategia di fine-tuning supervisionato a conservazione di entropia (Entropy-SFT) accoppiata con un apprendimento per rinforzo adattivo all'entropia a livello di token (TEA-RL) guidato da ricompense dense basate su regole. Questo approccio incoraggia il modello a trasformare il suo meccanismo di ragionamento, promuovendo infine capacità di ragionamento generalizzabili che includono anteprima e autocontrollo. Esperimenti estensivi condotti su benchmark di aderenza alle istruzioni dimostrano miglioramenti di prestazione notevoli su varie scale di modelli. In particolare, il nostro modello Light-IF-32B supera sia modelli open-source più grandi come DeepSeek-R1 che modelli closed-source come Doubao-1.6.
English
While advancements in the reasoning abilities of LLMs have significantly enhanced their performance in solving mathematical problems, coding tasks, and general puzzles, their effectiveness in accurately adhering to instructions remains inconsistent, particularly with more complex directives. Our investigation identifies lazy reasoning during the thinking stage as the primary factor contributing to poor instruction adherence. To mitigate this issue, we propose a comprehensive framework designed to enable rigorous reasoning processes involving preview and self-checking, essential for satisfying strict instruction constraints. Specifically, we first generate instructions with complex constraints and apply a filtering process to obtain valid prompts, resulting in three distinct prompt datasets categorized as hard, easy, and pass. Then, we employ rejection sampling on the pass prompts to curate a small yet high-quality dataset, enabling a cold-start initialization of the model and facilitating its adaptation to effective reasoning patterns. Subsequently, we employ an entropy-preserving supervised fine-tuning (Entropy-SFT) strategy coupled with token-wise entropy-adaptive (TEA-RL) reinforcement learning guided by rule-based dense rewards. This approach encourages the model to transform its reasoning mechanism, ultimately fostering generalizable reasoning abilities that encompass preview and self-checking. Extensive experiments conducted on instruction-following benchmarks demonstrate remarkable performance improvements across various model scales. Notably, our Light-IF-32B model surpasses both larger open-source models such as DeepSeek-R1 and closed-source models like Doubao-1.6.
PDF52December 16, 2025