LSRIF: Apprendimento per Rinforzo a Struttura Logica per il Rispetto delle Istruzioni
LSRIF: Logic-Structured Reinforcement Learning for Instruction Following
January 10, 2026
Autori: Qingyu Ren, Qianyu He, Jingwen Chang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Han Xia, Zeye Sun, Fei Yu
cs.AI
Abstract
La capacità di seguire istruzioni è fondamentale per i grandi modelli linguistici, ma le istruzioni del mondo reale contengono spesso strutture logiche come dipendenze sequenziali e ramificazioni condizionali. I metodi esistenti tipicamente costruiscono dataset con vincoli paralleli e ottimizzano le ricompense medie, ignorando le dipendenze logiche e producendo segnali rumorosi. Proponiamo un framework di addestramento a struttura logica denominato LSRIF che modella esplicitamente la logica delle istruzioni. Costruiamo innanzitutto un dataset LSRInstruct con strutture vincolari di tipo parallelo, sequenziale e condizionale, per poi progettare un metodo di ricompensa structure-aware LSRIF che include: aggregazione media per strutture parallele, propagazione della penalità per fallimenti nelle strutture sequenziali e ricompense selettive per rami condizionali. Gli esperimenti dimostrano che LSRIF apporta miglioramenti significativi nell'aderenza alle istruzioni (in-dominio e out-of-domain) e nel ragionamento generale. L'analisi rivela che l'apprendimento con strutture logiche esplicite induce aggiornamenti parametrici negli strati di attenzione e affina l'attenzione a livello di token verso vincoli e operatori logici.
English
Instruction-following is critical for large language models, but real-world instructions often contain logical structures such as sequential dependencies and conditional branching. Existing methods typically construct datasets with parallel constraints and optimize average rewards, ignoring logical dependencies and yielding noisy signals. We propose a logic-structured training framework LSRIF that explicitly models instruction logic. We first construct a dataset LSRInstruct with constraint structures such as parallel, sequential, and conditional types, and then design structure-aware rewarding method LSRIF including average aggregation for parallel structures, failure-penalty propagation for sequential structures, and selective rewards for conditional branches. Experiments show LSRIF brings significant improvements in instruction-following (in-domain and out-of-domain) and general reasoning. Analysis reveals that learning with explicit logic structures brings parameter updates in attention layers and sharpens token-level attention to constraints and logical operators.