AdaCoT: Attivazione Adattativa Pareto-Ottimale della Catena di Pensiero tramite Apprendimento per Rinforzo
AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning
May 17, 2025
Autori: Chenwei Lou, Zewei Sun, Xinnian Liang, Meng Qu, Wei Shen, Wenqi Wang, Yuntao Li, Qingping Yang, Shuangzhi Wu
cs.AI
Abstract
I Large Language Models (LLM) hanno dimostrato capacità notevoli, ma spesso incontrano difficoltà con compiti che richiedono ragionamenti sofisticati. Sebbene il prompting a Catena di Pensiero (Chain-of-Thought, CoT) migliori significativamente il ragionamento, genera indiscriminatamente passaggi di ragionamento lunghi per tutte le query, portando a costi computazionali sostanziali e inefficienze, specialmente per input più semplici. Per affrontare questo problema critico, introduciamo AdaCoT (Adaptive Chain-of-Thought), un nuovo framework che consente agli LLM di decidere in modo adattivo quando invocare il CoT. AdaCoT inquadra il ragionamento adattivo come un problema di ottimizzazione di Pareto che cerca di bilanciare le prestazioni del modello con i costi associati all'invocazione del CoT (sia in termini di frequenza che di sovraccarico computazionale). Proponiamo un metodo basato sul reinforcement learning (RL), in particolare utilizzando Proximal Policy Optimization (PPO), per controllare dinamicamente il confine decisionale di attivazione del CoT regolando i coefficienti di penalizzazione, consentendo così al modello di determinare la necessità del CoT in base alla complessità implicita della query. Un contributo tecnico chiave è il Selective Loss Masking (SLM), progettato per contrastare il collasso del confine decisionale durante l'addestramento RL multi-stadio, garantendo un'attivazione adattiva robusta e stabile. I risultati sperimentali dimostrano che AdaCoT naviga con successo la frontiera di Pareto, ottenendo riduzioni sostanziali nell'uso del CoT per query che non richiedono ragionamenti elaborati. Ad esempio, sul nostro testset di traffico di produzione, AdaCoT ha ridotto i tassi di attivazione del CoT fino al 3,18% e diminuito i token di risposta medi del 69,06%, mantenendo al contempo alte prestazioni su compiti complessi.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities but
often face challenges with tasks requiring sophisticated reasoning. While
Chain-of-Thought (CoT) prompting significantly enhances reasoning, it
indiscriminately generates lengthy reasoning steps for all queries, leading to
substantial computational costs and inefficiency, especially for simpler
inputs. To address this critical issue, we introduce AdaCoT (Adaptive
Chain-of-Thought), a novel framework enabling LLMs to adaptively decide when to
invoke CoT. AdaCoT framed adaptive reasoning as a Pareto optimization problem
that seeks to balance model performance with the costs associated with CoT
invocation (both frequency and computational overhead). We propose a
reinforcement learning (RL) based method, specifically utilizing Proximal
Policy Optimization (PPO), to dynamically control the CoT triggering decision
boundary by adjusting penalty coefficients, thereby allowing the model to
determine CoT necessity based on implicit query complexity. A key technical
contribution is Selective Loss Masking (SLM), designed to counteract decision
boundary collapse during multi-stage RL training, ensuring robust and stable
adaptive triggering. Experimental results demonstrate that AdaCoT successfully
navigates the Pareto frontier, achieving substantial reductions in CoT usage
for queries not requiring elaborate reasoning. For instance, on our production
traffic testset, AdaCoT reduced CoT triggering rates to as low as 3.18\% and
decreased average response tokens by 69.06%, while maintaining high performance
on complex tasks.