AdaCoT: Ativação Pareto-Otimal Adaptativa de Chain-of-Thought via Aprendizado por Reforço
AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning
May 17, 2025
Autores: Chenwei Lou, Zewei Sun, Xinnian Liang, Meng Qu, Wei Shen, Wenqi Wang, Yuntao Li, Qingping Yang, Shuangzhi Wu
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis, mas frequentemente enfrentam desafios em tarefas que exigem raciocínio sofisticado. Embora o prompting de Cadeia de Pensamento (Chain-of-Thought, CoT) melhore significativamente o raciocínio, ele gera indiscriminadamente etapas longas de raciocínio para todas as consultas, resultando em custos computacionais substanciais e ineficiência, especialmente para entradas mais simples. Para abordar essa questão crítica, introduzimos o AdaCoT (Adaptive Chain-of-Thought), um novo framework que permite aos LLMs decidir de forma adaptativa quando invocar o CoT. O AdaCoT enquadra o raciocínio adaptativo como um problema de otimização de Pareto, buscando equilibrar o desempenho do modelo com os custos associados à invocação do CoT (tanto em frequência quanto em sobrecarga computacional). Propomos um método baseado em Aprendizado por Reforço (Reinforcement Learning, RL), especificamente utilizando a Otimização de Política Proximal (Proximal Policy Optimization, PPO), para controlar dinamicamente o limite de decisão de ativação do CoT ao ajustar coeficientes de penalidade, permitindo que o modelo determine a necessidade do CoT com base na complexidade implícita da consulta. Uma contribuição técnica fundamental é o Mascaramento Seletivo de Perda (Selective Loss Masking, SLM), projetado para contrapor o colapso do limite de decisão durante o treinamento de RL em múltiplas etapas, garantindo uma ativação adaptativa robusta e estável. Resultados experimentais demonstram que o AdaCoT navega com sucesso pela fronteira de Pareto, alcançando reduções substanciais no uso do CoT para consultas que não exigem raciocínio elaborado. Por exemplo, em nosso conjunto de testes de tráfego de produção, o AdaCoT reduziu as taxas de ativação do CoT para apenas 3,18% e diminuiu os tokens médios de resposta em 69,06%, mantendo alto desempenho em tarefas complexas.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities but
often face challenges with tasks requiring sophisticated reasoning. While
Chain-of-Thought (CoT) prompting significantly enhances reasoning, it
indiscriminately generates lengthy reasoning steps for all queries, leading to
substantial computational costs and inefficiency, especially for simpler
inputs. To address this critical issue, we introduce AdaCoT (Adaptive
Chain-of-Thought), a novel framework enabling LLMs to adaptively decide when to
invoke CoT. AdaCoT framed adaptive reasoning as a Pareto optimization problem
that seeks to balance model performance with the costs associated with CoT
invocation (both frequency and computational overhead). We propose a
reinforcement learning (RL) based method, specifically utilizing Proximal
Policy Optimization (PPO), to dynamically control the CoT triggering decision
boundary by adjusting penalty coefficients, thereby allowing the model to
determine CoT necessity based on implicit query complexity. A key technical
contribution is Selective Loss Masking (SLM), designed to counteract decision
boundary collapse during multi-stage RL training, ensuring robust and stable
adaptive triggering. Experimental results demonstrate that AdaCoT successfully
navigates the Pareto frontier, achieving substantial reductions in CoT usage
for queries not requiring elaborate reasoning. For instance, on our production
traffic testset, AdaCoT reduced CoT triggering rates to as low as 3.18\% and
decreased average response tokens by 69.06%, while maintaining high performance
on complex tasks.