Light-IF: Наделение языковых моделей обобщаемыми способностями к рассуждению через предварительный просмотр и самопроверку для выполнения сложных инструкций
Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following
August 5, 2025
Авторы: Chenyang Wang, Liang Wen, Shousheng Jia, Xiangzheng Zhang, Liang Xu
cs.AI
Аннотация
Хотя достижения в области способностей к рассуждению у крупных языковых моделей (LLM) значительно улучшили их производительность в решении математических задач, задач по программированию и общих головоломок, их эффективность в точном следовании инструкциям остается нестабильной, особенно в случае более сложных указаний. Наше исследование выявляет "ленивое рассуждение" на этапе мышления как основной фактор, способствующий плохому следованию инструкциям. Для устранения этой проблемы мы предлагаем комплексную структуру, предназначенную для обеспечения строгих процессов рассуждения, включающих предварительный просмотр и самопроверку, что необходимо для соблюдения строгих ограничений инструкций. В частности, мы сначала генерируем инструкции со сложными ограничениями и применяем процесс фильтрации для получения валидных запросов, что приводит к созданию трех различных наборов данных запросов, классифицированных как сложные, простые и проходные. Затем мы используем метод отбраковки на проходных запросах для создания небольшого, но высококачественного набора данных, что позволяет инициализировать модель с "холодного старта" и облегчает ее адаптацию к эффективным шаблонам рассуждения. Впоследствии мы применяем стратегию контролируемого тонкого настройки с сохранением энтропии (Entropy-SFT) в сочетании с пошаговым адаптивным обучением с подкреплением на основе энтропии (TEA-RL), направляемым плотными наградами на основе правил. Этот подход побуждает модель трансформировать свой механизм рассуждения, в конечном итоге развивая обобщаемые способности к рассуждению, включающие предварительный просмотр и самопроверку. Многочисленные эксперименты, проведенные на тестовых наборах для проверки следования инструкциям, демонстрируют значительное улучшение производительности на различных масштабах моделей. В частности, наша модель Light-IF-32B превосходит как более крупные открытые модели, такие как DeepSeek-R1, так и закрытые модели, такие как Doubao-1.6.
English
While advancements in the reasoning abilities of LLMs have significantly
enhanced their performance in solving mathematical problems, coding tasks, and
general puzzles, their effectiveness in accurately adhering to instructions
remains inconsistent, particularly with more complex directives. Our
investigation identifies lazy reasoning during the thinking stage as the
primary factor contributing to poor instruction adherence. To mitigate this
issue, we propose a comprehensive framework designed to enable rigorous
reasoning processes involving preview and self-checking, essential for
satisfying strict instruction constraints. Specifically, we first generate
instructions with complex constraints and apply a filtering process to obtain
valid prompts, resulting in three distinct prompt datasets categorized as hard,
easy, and pass. Then, we employ rejection sampling on the pass prompts to
curate a small yet high-quality dataset, enabling a cold-start initialization
of the model and facilitating its adaptation to effective reasoning patterns.
Subsequently, we employ an entropy-preserving supervised fine-tuning
(Entropy-SFT) strategy coupled with token-wise entropy-adaptive (TEA-RL)
reinforcement learning guided by rule-based dense rewards. This approach
encourages the model to transform its reasoning mechanism, ultimately fostering
generalizable reasoning abilities that encompass preview and self-checking.
Extensive experiments conducted on instruction-following benchmarks demonstrate
remarkable performance improvements across various model scales. Notably, our
Light-IF-32B model surpasses both larger open-source models such as DeepSeek-R1
and closed-source models like Doubao-1.6.