ChatPaper.aiChatPaper

LSRIF : Apprentissage par Renforcement à Structure Logique pour le Suivi d'Instructions

LSRIF: Logic-Structured Reinforcement Learning for Instruction Following

January 10, 2026
papers.authors: Qingyu Ren, Qianyu He, Jingwen Chang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Han Xia, Zeye Sun, Fei Yu
cs.AI

papers.abstract

Le suivi des instructions est crucial pour les grands modèles de langage, mais les instructions réelles contiennent souvent des structures logiques telles que des dépendances séquentielles et des branchements conditionnels. Les méthodes existantes construisent généralement des jeux de données avec des contraintes parallèles et optimisent les récompenses moyennes, ignorant les dépendances logiques et produisant des signaux bruités. Nous proposons un cadre d'entraînement à structure logique LSRIF qui modélise explicitement la logique des instructions. Nous construisons d'abord un jeu de données LSRInstruct avec des structures de contraintes de types parallèles, séquentiels et conditionnels, puis concevons une méthode de récompense structurellement consciente LSRIF incluant l'agrégation moyenne pour les structures parallèles, la propagation des pénalités d'échec pour les structures séquentielles et les récompenses sélectives pour les branchements conditionnels. Les expériences montrent que LSRIF apporte des améliorations significatives dans le suivi d'instructions (en domaine connu et hors domaine) et le raisonnement général. L'analyse révèle que l'apprentissage avec des structures logiques explicites provoque des mises à jour paramétriques dans les couches d'attention et affine l'attention au niveau des tokens pour les contraintes et les opérateurs logiques.
English
Instruction-following is critical for large language models, but real-world instructions often contain logical structures such as sequential dependencies and conditional branching. Existing methods typically construct datasets with parallel constraints and optimize average rewards, ignoring logical dependencies and yielding noisy signals. We propose a logic-structured training framework LSRIF that explicitly models instruction logic. We first construct a dataset LSRInstruct with constraint structures such as parallel, sequential, and conditional types, and then design structure-aware rewarding method LSRIF including average aggregation for parallel structures, failure-penalty propagation for sequential structures, and selective rewards for conditional branches. Experiments show LSRIF brings significant improvements in instruction-following (in-domain and out-of-domain) and general reasoning. Analysis reveals that learning with explicit logic structures brings parameter updates in attention layers and sharpens token-level attention to constraints and logical operators.
PDF51January 17, 2026