LSRIF: Aprendizaje por Refuerzo de Estructura Lógica para el Seguimiento de Instrucciones
LSRIF: Logic-Structured Reinforcement Learning for Instruction Following
January 10, 2026
Autores: Qingyu Ren, Qianyu He, Jingwen Chang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Han Xia, Zeye Sun, Fei Yu
cs.AI
Resumen
La capacidad de seguir instrucciones es crucial para los grandes modelos de lenguaje, pero las instrucciones del mundo real suelen contener estructuras lógicas como dependencias secuenciales y ramificaciones condicionales. Los métodos existentes generalmente construyen conjuntos de datos con restricciones paralelas y optimizan recompensas promedio, ignorando las dependencias lógicas y generando señales ruidosas. Proponemos un marco de entrenamiento de estructura lógica, LSRIF, que modela explícitamente la lógica de las instrucciones. Primero construimos un conjunto de datos, LSRInstruct, con estructuras de restricción como tipos paralelos, secuenciales y condicionales, y luego diseñamos un método de recompensa consciente de la estructura, LSRIF, que incluye agregación promedio para estructuras paralelas, propagación de penalización por fallo para estructuras secuenciales y recompensas selectivas para ramas condicionales. Los experimentos muestran que LSRIF genera mejoras significativas en el seguimiento de instrucciones (dentro y fuera del dominio) y en el razonamiento general. El análisis revela que el aprendizaje con estructuras lógicas explícitas produce actualizaciones de parámetros en las capas de atención y agudiza la atención a nivel de token hacia las restricciones y los operadores lógicos.
English
Instruction-following is critical for large language models, but real-world instructions often contain logical structures such as sequential dependencies and conditional branching. Existing methods typically construct datasets with parallel constraints and optimize average rewards, ignoring logical dependencies and yielding noisy signals. We propose a logic-structured training framework LSRIF that explicitly models instruction logic. We first construct a dataset LSRInstruct with constraint structures such as parallel, sequential, and conditional types, and then design structure-aware rewarding method LSRIF including average aggregation for parallel structures, failure-penalty propagation for sequential structures, and selective rewards for conditional branches. Experiments show LSRIF brings significant improvements in instruction-following (in-domain and out-of-domain) and general reasoning. Analysis reveals that learning with explicit logic structures brings parameter updates in attention layers and sharpens token-level attention to constraints and logical operators.