LSRIF: Логически-структурированное обучение с подкреплением для следования инструкциям
LSRIF: Logic-Structured Reinforcement Learning for Instruction Following
January 10, 2026
Авторы: Qingyu Ren, Qianyu He, Jingwen Chang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Han Xia, Zeye Sun, Fei Yu
cs.AI
Аннотация
Следование инструкциям является критически важным для больших языковых моделей, однако реальные инструкции часто содержат логические структуры, такие как последовательные зависимости и условные ветвления. Существующие методы обычно создают наборы данных с параллельными ограничениями и оптимизируют средние показатели вознаграждения, игнорируя логические зависимости и порождая зашумленные сигналы. Мы предлагаем логически структурированную обучающую систему LSRIF, которая явно моделирует логику инструкций. Сначала мы создаем набор данных LSRInstruct со структурами ограничений, такими как параллельные, последовательные и условные типы, а затем разрабатываем метод структурированного вознаграждения LSRIF, включающий агрегацию по среднему для параллельных структур, распространение штрафа за неудачу для последовательных структур и избирательные вознаграждения для условных ветвей. Эксперименты показывают, что LSRIF обеспечивает значительное улучшение в следовании инструкциям (внутри домена и вне домена) и в общих рассуждениях. Анализ показывает, что обучение с явными логическими структурами приводит к обновлению параметров в слоях внимания и усиливает токено-ориентированное внимание к ограничениям и логическим операторам.
English
Instruction-following is critical for large language models, but real-world instructions often contain logical structures such as sequential dependencies and conditional branching. Existing methods typically construct datasets with parallel constraints and optimize average rewards, ignoring logical dependencies and yielding noisy signals. We propose a logic-structured training framework LSRIF that explicitly models instruction logic. We first construct a dataset LSRInstruct with constraint structures such as parallel, sequential, and conditional types, and then design structure-aware rewarding method LSRIF including average aggregation for parallel structures, failure-penalty propagation for sequential structures, and selective rewards for conditional branches. Experiments show LSRIF brings significant improvements in instruction-following (in-domain and out-of-domain) and general reasoning. Analysis reveals that learning with explicit logic structures brings parameter updates in attention layers and sharpens token-level attention to constraints and logical operators.