AdaCoT : Déclenchement Pareto-optimal adaptatif de chaînes de raisonnement par apprentissage par renforcement
AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning
May 17, 2025
Auteurs: Chenwei Lou, Zewei Sun, Xinnian Liang, Meng Qu, Wei Shen, Wenqi Wang, Yuntao Li, Qingping Yang, Shuangzhi Wu
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables, mais ils rencontrent souvent des difficultés avec les tâches nécessitant un raisonnement sophistiqué. Bien que l'incitation en chaîne de pensée (Chain-of-Thought, CoT) améliore significativement le raisonnement, elle génère de manière indiscriminée des étapes de raisonnement longues pour toutes les requêtes, entraînant des coûts de calcul substantiels et une inefficacité, en particulier pour les entrées plus simples. Pour résoudre ce problème critique, nous introduisons AdaCoT (Adaptive Chain-of-Thought), un cadre novateur permettant aux LLMs de décider de manière adaptative quand invoquer la CoT. AdaCoT formule le raisonnement adaptatif comme un problème d'optimisation de Pareto visant à équilibrer la performance du modèle avec les coûts associés à l'invocation de la CoT (à la fois la fréquence et la surcharge de calcul). Nous proposons une méthode basée sur l'apprentissage par renforcement (Reinforcement Learning, RL), utilisant spécifiquement l'Optimisation de Politique Proximale (Proximal Policy Optimization, PPO), pour contrôler dynamiquement la frontière de décision de déclenchement de la CoT en ajustant les coefficients de pénalité, permettant ainsi au modèle de déterminer la nécessité de la CoT en fonction de la complexité implicite de la requête. Une contribution technique clé est le Masquage Sélectif des Pertes (Selective Loss Masking, SLM), conçu pour contrer l'effondrement de la frontière de décision pendant l'entraînement RL multi-étapes, assurant un déclenchement adaptatif robuste et stable. Les résultats expérimentaux montrent qu'AdaCoT navigue avec succès sur la frontière de Pareto, obtenant des réductions substantielles de l'utilisation de la CoT pour les requêtes ne nécessitant pas un raisonnement élaboré. Par exemple, sur notre ensemble de test de trafic de production, AdaCoT a réduit les taux de déclenchement de la CoT à seulement 3,18 % et a diminué le nombre moyen de tokens de réponse de 69,06 %, tout en maintenant une performance élevée sur les tâches complexes.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities but
often face challenges with tasks requiring sophisticated reasoning. While
Chain-of-Thought (CoT) prompting significantly enhances reasoning, it
indiscriminately generates lengthy reasoning steps for all queries, leading to
substantial computational costs and inefficiency, especially for simpler
inputs. To address this critical issue, we introduce AdaCoT (Adaptive
Chain-of-Thought), a novel framework enabling LLMs to adaptively decide when to
invoke CoT. AdaCoT framed adaptive reasoning as a Pareto optimization problem
that seeks to balance model performance with the costs associated with CoT
invocation (both frequency and computational overhead). We propose a
reinforcement learning (RL) based method, specifically utilizing Proximal
Policy Optimization (PPO), to dynamically control the CoT triggering decision
boundary by adjusting penalty coefficients, thereby allowing the model to
determine CoT necessity based on implicit query complexity. A key technical
contribution is Selective Loss Masking (SLM), designed to counteract decision
boundary collapse during multi-stage RL training, ensuring robust and stable
adaptive triggering. Experimental results demonstrate that AdaCoT successfully
navigates the Pareto frontier, achieving substantial reductions in CoT usage
for queries not requiring elaborate reasoning. For instance, on our production
traffic testset, AdaCoT reduced CoT triggering rates to as low as 3.18\% and
decreased average response tokens by 69.06%, while maintaining high performance
on complex tasks.Summary
AI-Generated Summary