AdaCoT: Pareto-optimale adaptieve Chain-of-Thought-triggering via Reinforcement Learning
AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning
May 17, 2025
Auteurs: Chenwei Lou, Zewei Sun, Xinnian Liang, Meng Qu, Wei Shen, Wenqi Wang, Yuntao Li, Qingping Yang, Shuangzhi Wu
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond, maar
komen vaak voor uitdagingen te staan bij taken die geavanceerd redeneren vereisen.
Hoewel Chain-of-Thought (CoT) prompting het redeneren aanzienlijk verbetert, genereert
het onnodig uitgebreide redeneerstappen voor alle queries, wat leidt tot aanzienlijke
computationale kosten en inefficiëntie, vooral voor eenvoudigere inputs. Om dit kritieke
probleem aan te pakken, introduceren we AdaCoT (Adaptive Chain-of-Thought), een nieuw
framework dat LLM's in staat stelt adaptief te beslissen wanneer CoT moet worden ingezet.
AdaCoT benadert adaptief redeneren als een Pareto-optimalisatieprobleem dat streeft naar
een balans tussen modelprestaties en de kosten verbonden aan het inzetten van CoT (zowel
frequentie als computationale overhead). We stellen een op reinforcement learning (RL)
gebaseerde methode voor, specifiek gebruikmakend van Proximal Policy Optimization (PPO),
om dynamisch de beslissingsgrens voor CoT-triggering te beheersen door strafcoëfficiënten
aan te passen, waardoor het model de noodzaak van CoT kan bepalen op basis van impliciete
querycomplexiteit. Een belangrijke technische bijdrage is Selective Loss Masking (SLM),
ontworpen om beslissingsgrensinstorting tijdens meerfasige RL-training tegen te gaan, wat
robuste en stabiele adaptieve triggering garandeert. Experimentele resultaten tonen aan
dat AdaCoT succesvol de Pareto-grens navigeert, met aanzienlijke verminderingen in CoT-gebruik
voor queries die geen uitgebreid redeneren vereisen. Op onze productieverkeer-testset reduceerde
AdaCoT bijvoorbeeld de CoT-triggeringspercentages tot slechts 3,18% en verminderde het gemiddelde
aantal respons-tokens met 69,06%, terwijl hoge prestaties op complexe taken behouden bleven.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities but
often face challenges with tasks requiring sophisticated reasoning. While
Chain-of-Thought (CoT) prompting significantly enhances reasoning, it
indiscriminately generates lengthy reasoning steps for all queries, leading to
substantial computational costs and inefficiency, especially for simpler
inputs. To address this critical issue, we introduce AdaCoT (Adaptive
Chain-of-Thought), a novel framework enabling LLMs to adaptively decide when to
invoke CoT. AdaCoT framed adaptive reasoning as a Pareto optimization problem
that seeks to balance model performance with the costs associated with CoT
invocation (both frequency and computational overhead). We propose a
reinforcement learning (RL) based method, specifically utilizing Proximal
Policy Optimization (PPO), to dynamically control the CoT triggering decision
boundary by adjusting penalty coefficients, thereby allowing the model to
determine CoT necessity based on implicit query complexity. A key technical
contribution is Selective Loss Masking (SLM), designed to counteract decision
boundary collapse during multi-stage RL training, ensuring robust and stable
adaptive triggering. Experimental results demonstrate that AdaCoT successfully
navigates the Pareto frontier, achieving substantial reductions in CoT usage
for queries not requiring elaborate reasoning. For instance, on our production
traffic testset, AdaCoT reduced CoT triggering rates to as low as 3.18\% and
decreased average response tokens by 69.06%, while maintaining high performance
on complex tasks.Summary
AI-Generated Summary