AdaCoT: Activación Pareto-Óptima Adaptativa de Cadena de Pensamiento mediante Aprendizaje por Refuerzo
AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning
May 17, 2025
Autores: Chenwei Lou, Zewei Sun, Xinnian Liang, Meng Qu, Wei Shen, Wenqi Wang, Yuntao Li, Qingping Yang, Shuangzhi Wu
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables, pero a menudo enfrentan desafíos en tareas que requieren razonamiento sofisticado. Si bien el enfoque de Cadena de Pensamiento (CoT, por sus siglas en inglés) mejora significativamente el razonamiento, genera indiscriminadamente pasos de razonamiento extensos para todas las consultas, lo que conlleva costos computacionales sustanciales e ineficiencias, especialmente para entradas más simples. Para abordar este problema crítico, presentamos AdaCoT (Cadena de Pensamiento Adaptativa), un marco novedoso que permite a los LLMs decidir de manera adaptativa cuándo invocar CoT. AdaCoT enmarca el razonamiento adaptativo como un problema de optimización de Pareto que busca equilibrar el rendimiento del modelo con los costos asociados a la invocación de CoT (tanto en frecuencia como en sobrecarga computacional). Proponemos un método basado en aprendizaje por refuerzo (RL, por sus siglas en inglés), específicamente utilizando Optimización de Política Proximal (PPO, por sus siglas en inglés), para controlar dinámicamente el límite de decisión de activación de CoT ajustando coeficientes de penalización, permitiendo así que el modelo determine la necesidad de CoT basándose en la complejidad implícita de la consulta. Una contribución técnica clave es el Enmascaramiento Selectivo de Pérdidas (SLM, por sus siglas en inglés), diseñado para contrarrestar el colapso del límite de decisión durante el entrenamiento de RL en múltiples etapas, asegurando una activación adaptativa robusta y estable. Los resultados experimentales demuestran que AdaCoT navega con éxito la frontera de Pareto, logrando reducciones sustanciales en el uso de CoT para consultas que no requieren un razonamiento elaborado. Por ejemplo, en nuestro conjunto de pruebas de tráfico de producción, AdaCoT redujo las tasas de activación de CoT hasta un 3.18% y disminuyó los tokens de respuesta promedio en un 69.06%, manteniendo un alto rendimiento en tareas complejas.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities but
often face challenges with tasks requiring sophisticated reasoning. While
Chain-of-Thought (CoT) prompting significantly enhances reasoning, it
indiscriminately generates lengthy reasoning steps for all queries, leading to
substantial computational costs and inefficiency, especially for simpler
inputs. To address this critical issue, we introduce AdaCoT (Adaptive
Chain-of-Thought), a novel framework enabling LLMs to adaptively decide when to
invoke CoT. AdaCoT framed adaptive reasoning as a Pareto optimization problem
that seeks to balance model performance with the costs associated with CoT
invocation (both frequency and computational overhead). We propose a
reinforcement learning (RL) based method, specifically utilizing Proximal
Policy Optimization (PPO), to dynamically control the CoT triggering decision
boundary by adjusting penalty coefficients, thereby allowing the model to
determine CoT necessity based on implicit query complexity. A key technical
contribution is Selective Loss Masking (SLM), designed to counteract decision
boundary collapse during multi-stage RL training, ensuring robust and stable
adaptive triggering. Experimental results demonstrate that AdaCoT successfully
navigates the Pareto frontier, achieving substantial reductions in CoT usage
for queries not requiring elaborate reasoning. For instance, on our production
traffic testset, AdaCoT reduced CoT triggering rates to as low as 3.18\% and
decreased average response tokens by 69.06%, while maintaining high performance
on complex tasks.Summary
AI-Generated Summary