Anreize für das logische Denken zur Förderung der fortgeschrittenen Befolgung von Anweisungen durch große Sprachmodelle
Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models
June 2, 2025
Autoren: Yulei Qin, Gang Li, Zongyi Li, Zihan Xu, Yuchen Shi, Zhekai Lin, Xiao Cui, Ke Li, Xing Sun
cs.AI
Zusammenfassung
Bestehende große Sprachmodelle (LLMs) stehen vor Herausforderungen bei der Befolgung komplexer Anweisungen, insbesondere wenn mehrere Einschränkungen vorhanden sind und in parallelen, verketteten und verzweigten Strukturen organisiert sind. Eine intuitive Lösung, nämlich die Chain-of-Thought (CoT), wird erwartungsgemäß die Fähigkeiten von LLMs universell verbessern. Wir stellen jedoch fest, dass die herkömmliche CoT aufgrund ihres oberflächlichen Argumentationsmusters, das lediglich die Anweisungen umschreibt, eine negative Auswirkung auf die Leistung hat. Sie versagt dabei, die Zusammensetzungen der Einschränkungen zu analysieren, um ihre Beziehungen über Hierarchien von Typen und Dimensionen hinweg zu identifizieren. Zu diesem Zweck schlagen wir eine systematische Methode vor, um LLMs bei der Bewältigung komplexer Anweisungen zu stärken, indem die Argumentation für die Skalierung der Rechenleistung zur Testzeit gefördert wird. Zunächst gehen wir von der Zerlegung komplexer Anweisungen unter bestehenden Taxonomien aus und schlagen eine reproduzierbare Methode zur Datenerfassung vor. Zweitens nutzen wir Verstärkungslernen (RL) mit überprüfbaren, regelzentrierten Belohnungssignalen, um speziell die Argumentation für die Befolgung von Anweisungen zu fördern. Wir adressieren die oberflächliche, nicht wesentliche Natur der Argumentation unter komplexen Anweisungen durch kontrastive Proben für eine überlegene CoT-Durchsetzung. Zusätzlich nutzen wir das Verhaltensklonen von Experten, um einen stetigen Verteilungswandel von schnell denkenden LLMs hin zu geschickten Argumentierern zu erleichtern. Umfangreiche Bewertungen auf sieben umfassenden Benchmarks bestätigen die Gültigkeit der vorgeschlagenen Methode, bei der ein 1,5B LLM eine Steigerung von 11,74 % erzielt und eine Leistung erreicht, die mit einem 8B LLM vergleichbar ist. Codes und Daten sind verfügbar unter https://github.com/yuleiqin/RAIF.
English
Existing large language models (LLMs) face challenges of following complex
instructions, especially when multiple constraints are present and organized in
paralleling, chaining, and branching structures. One intuitive solution, namely
chain-of-thought (CoT), is expected to universally improve capabilities of
LLMs. However, we find that the vanilla CoT exerts a negative impact on
performance due to its superficial reasoning pattern of simply paraphrasing the
instructions. It fails to peel back the compositions of constraints for
identifying their relationship across hierarchies of types and dimensions. To
this end, we propose a systematic method to boost LLMs in dealing with complex
instructions via incentivizing reasoning for test-time compute scaling. First,
we stem from the decomposition of complex instructions under existing
taxonomies and propose a reproducible data acquisition method. Second, we
exploit reinforcement learning (RL) with verifiable rule-centric reward signals
to cultivate reasoning specifically for instruction following. We address the
shallow, non-essential nature of reasoning under complex instructions via
sample-wise contrast for superior CoT enforcement. We also exploit behavior
cloning of experts to facilitate steady distribution shift from fast-thinking
LLMs to skillful reasoners. Extensive evaluations on seven comprehensive
benchmarks confirm the validity of the proposed method, where a 1.5B LLM
achieves 11.74% gains with performance comparable to a 8B LLM. Codes and data
are available at https://github.com/yuleiqin/RAIF.