ChatPaper.aiChatPaper

Light-IF: Ausstattung von LLMs mit generalisierbarem Denken durch Vorschau und Selbstüberprüfung für komplexe Instruktionsbefolgung

Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

August 5, 2025
papers.authors: Chenyang Wang, Liang Wen, Shousheng Jia, Xiangzheng Zhang, Liang Xu
cs.AI

papers.abstract

Während die Fortschritte in den Fähigkeiten von LLMs (Large Language Models) zur logischen Schlussfolgerung ihre Leistung bei der Lösung mathematischer Probleme, Programmieraufgaben und allgemeiner Rätsel erheblich verbessert haben, bleibt ihre Effektivität bei der präzisen Befolgung von Anweisungen insbesondere bei komplexeren Anweisungen inkonsistent. Unsere Untersuchung identifiziert nachlässiges Denken während der Denkphase als den Hauptfaktor, der zu einer schlechten Anweisungsbefolgung führt. Um dieses Problem zu mildern, schlagen wir ein umfassendes Framework vor, das rigorose Denkprozesse mit Vorausschau und Selbstüberprüfung ermöglicht, die für die Einhaltung strenger Anweisungsbedingungen unerlässlich sind. Konkret generieren wir zunächst Anweisungen mit komplexen Bedingungen und wenden einen Filterprozess an, um gültige Prompts zu erhalten, was zu drei verschiedenen Prompt-Datensätzen führt, die als schwer, einfach und passend kategorisiert sind. Anschließend verwenden wir Rejection Sampling auf den passenden Prompts, um einen kleinen, aber hochwertigen Datensatz zu erstellen, der eine Kaltstart-Initialisierung des Modells ermöglicht und dessen Anpassung an effektive Denkmuster erleichtert. Danach setzen wir eine entropieerhaltende überwachte Feinabstimmung (Entropy-SFT) in Kombination mit tokenweiser entropieadaptiver (TEA-RL) Verstärkungslernung ein, die durch regelbasierte dichte Belohnungen geleitet wird. Dieser Ansatz ermutigt das Modell, seinen Denkmechanismus zu transformieren, wodurch letztendlich generalisierbare Denkfähigkeiten gefördert werden, die Vorausschau und Selbstüberprüfung umfassen. Umfangreiche Experimente auf Benchmarks zur Anweisungsbefolgung zeigen bemerkenswerte Leistungsverbesserungen über verschiedene Modellgrößen hinweg. Insbesondere übertrifft unser Light-IF-32B-Modell sowohl größere Open-Source-Modelle wie DeepSeek-R1 als auch Closed-Source-Modelle wie Doubao-1.6.
English
While advancements in the reasoning abilities of LLMs have significantly enhanced their performance in solving mathematical problems, coding tasks, and general puzzles, their effectiveness in accurately adhering to instructions remains inconsistent, particularly with more complex directives. Our investigation identifies lazy reasoning during the thinking stage as the primary factor contributing to poor instruction adherence. To mitigate this issue, we propose a comprehensive framework designed to enable rigorous reasoning processes involving preview and self-checking, essential for satisfying strict instruction constraints. Specifically, we first generate instructions with complex constraints and apply a filtering process to obtain valid prompts, resulting in three distinct prompt datasets categorized as hard, easy, and pass. Then, we employ rejection sampling on the pass prompts to curate a small yet high-quality dataset, enabling a cold-start initialization of the model and facilitating its adaptation to effective reasoning patterns. Subsequently, we employ an entropy-preserving supervised fine-tuning (Entropy-SFT) strategy coupled with token-wise entropy-adaptive (TEA-RL) reinforcement learning guided by rule-based dense rewards. This approach encourages the model to transform its reasoning mechanism, ultimately fostering generalizable reasoning abilities that encompass preview and self-checking. Extensive experiments conducted on instruction-following benchmarks demonstrate remarkable performance improvements across various model scales. Notably, our Light-IF-32B model surpasses both larger open-source models such as DeepSeek-R1 and closed-source models like Doubao-1.6.
PDF22August 7, 2025