AdaCoT: Pareto-optimale adaptive Chain-of-Thought-Auslösung durch Reinforcement Learning
AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning
May 17, 2025
Autoren: Chenwei Lou, Zewei Sun, Xinnian Liang, Meng Qu, Wei Shen, Wenqi Wang, Yuntao Li, Qingping Yang, Shuangzhi Wu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten gezeigt, stehen jedoch oft vor Herausforderungen bei Aufgaben, die anspruchsvolles logisches Denken erfordern. Während Chain-of-Thought (CoT)-Prompting das logische Denken erheblich verbessert, generiert es für alle Anfragen ungezielt umfangreiche Denkschritte, was zu erheblichen Rechenkosten und Ineffizienz führt, insbesondere bei einfacheren Eingaben. Um dieses kritische Problem zu lösen, führen wir AdaCoT (Adaptive Chain-of-Thought) ein, ein neuartiges Framework, das es LLMs ermöglicht, adaptiv zu entscheiden, wann CoT aufgerufen wird. AdaCoT formuliert adaptives Denken als ein Pareto-Optimierungsproblem, das darauf abzielt, die Modellleistung mit den Kosten für den CoT-Aufruf (sowohl Häufigkeit als auch Rechenaufwand) auszubalancieren. Wir schlagen eine Methode basierend auf Reinforcement Learning (RL) vor, die speziell Proximal Policy Optimization (PPO) nutzt, um die Entscheidungsgrenze für das CoT-Triggering dynamisch zu steuern, indem Strafkoeffizienten angepasst werden. Dadurch kann das Modell die Notwendigkeit von CoT basierend auf der impliziten Komplexität der Anfrage bestimmen. Ein wesentlicher technischer Beitrag ist Selective Loss Masking (SLM), das entwickelt wurde, um den Zusammenbruch der Entscheidungsgrenze während des mehrstufigen RL-Trainings zu verhindern und so robustes und stabiles adaptives Triggering zu gewährleisten. Experimentelle Ergebnisse zeigen, dass AdaCoT erfolgreich die Pareto-Grenze navigiert und erhebliche Reduktionen im CoT-Einsatz für Anfragen erreicht, die kein aufwendiges logisches Denken erfordern. Beispielsweise reduzierte AdaCoT auf unserem Produktionstestdatensatz die CoT-Triggerraten auf bis zu 3,18 % und verringerte die durchschnittlichen Antwort-Tokens um 69,06 %, während gleichzeitig eine hohe Leistung bei komplexen Aufgaben beibehalten wurde.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities but
often face challenges with tasks requiring sophisticated reasoning. While
Chain-of-Thought (CoT) prompting significantly enhances reasoning, it
indiscriminately generates lengthy reasoning steps for all queries, leading to
substantial computational costs and inefficiency, especially for simpler
inputs. To address this critical issue, we introduce AdaCoT (Adaptive
Chain-of-Thought), a novel framework enabling LLMs to adaptively decide when to
invoke CoT. AdaCoT framed adaptive reasoning as a Pareto optimization problem
that seeks to balance model performance with the costs associated with CoT
invocation (both frequency and computational overhead). We propose a
reinforcement learning (RL) based method, specifically utilizing Proximal
Policy Optimization (PPO), to dynamically control the CoT triggering decision
boundary by adjusting penalty coefficients, thereby allowing the model to
determine CoT necessity based on implicit query complexity. A key technical
contribution is Selective Loss Masking (SLM), designed to counteract decision
boundary collapse during multi-stage RL training, ensuring robust and stable
adaptive triggering. Experimental results demonstrate that AdaCoT successfully
navigates the Pareto frontier, achieving substantial reductions in CoT usage
for queries not requiring elaborate reasoning. For instance, on our production
traffic testset, AdaCoT reduced CoT triggering rates to as low as 3.18\% and
decreased average response tokens by 69.06%, while maintaining high performance
on complex tasks.Summary
AI-Generated Summary