ChatPaper.aiChatPaper

LSRIF: Logikstrukturiertes bestärkendes Lernen zur Befolgung von Anweisungen

LSRIF: Logic-Structured Reinforcement Learning for Instruction Following

January 10, 2026
papers.authors: Qingyu Ren, Qianyu He, Jingwen Chang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Han Xia, Zeye Sun, Fei Yu
cs.AI

papers.abstract

Die Befolgung von Anweisungen ist entscheidend für große Sprachmodelle, doch reale Anweisungen enthalten häufig logische Strukturen wie sequenzielle Abhängigkeiten und bedingte Verzweigungen. Bestehende Methoden konstruieren typischerweise Datensätze mit parallelen Constraints und optimieren Durchschnittsbelohnungen, wobei sie logische Abhängigkeiten ignorieren und verrauschte Signale erzeugen. Wir schlagen einen logikstrukturierten Trainingsansatz LSRIF vor, der Anweisungslogik explizit modelliert. Zuerst erstellen wir einen Datensatz LSRInstruct mit Constraint-Strukturen wie parallelen, sequenziellen und bedingten Typen, dann entwickeln wir eine struktur-sensitive Belohnungsmethode LSRIF, die Durchschnittsaggregation für parallele Strukturen, Fehler-Straf-Propagation für sequenzielle Strukturen und selektive Belohnungen für bedingte Verzweigungen umfasst. Experimente zeigen, dass LSRIF signifikante Verbesserungen bei der Anweisungsbefolgung (innerhalb und außerhalb der Domäne) und beim allgemeinen logischen Denken bringt. Analysen offenbaren, dass das Lernen mit expliziten Logikstrukturen Parameteranpassungen in Attention-Layern bewirkt und die token-basierte Aufmerksamkeit für Constraints und logische Operatoren schärft.
English
Instruction-following is critical for large language models, but real-world instructions often contain logical structures such as sequential dependencies and conditional branching. Existing methods typically construct datasets with parallel constraints and optimize average rewards, ignoring logical dependencies and yielding noisy signals. We propose a logic-structured training framework LSRIF that explicitly models instruction logic. We first construct a dataset LSRInstruct with constraint structures such as parallel, sequential, and conditional types, and then design structure-aware rewarding method LSRIF including average aggregation for parallel structures, failure-penalty propagation for sequential structures, and selective rewards for conditional branches. Experiments show LSRIF brings significant improvements in instruction-following (in-domain and out-of-domain) and general reasoning. Analysis reveals that learning with explicit logic structures brings parameter updates in attention layers and sharpens token-level attention to constraints and logical operators.
PDF51January 17, 2026