AdaCoT: Парето-оптимальное адаптивное управление цепочкой рассуждений с использованием обучения с подкреплением
AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning
May 17, 2025
Авторы: Chenwei Lou, Zewei Sun, Xinnian Liang, Meng Qu, Wei Shen, Wenqi Wang, Yuntao Li, Qingping Yang, Shuangzhi Wu
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют впечатляющие возможности, но часто сталкиваются с трудностями при выполнении задач, требующих сложных рассуждений. Хотя метод Chain-of-Thought (CoT) значительно улучшает рассуждения, он без разбора генерирует длинные цепочки рассуждений для всех запросов, что приводит к значительным вычислительным затратам и неэффективности, особенно для более простых входных данных. Чтобы решить эту важную проблему, мы представляем AdaCoT (Adaptive Chain-of-Thought) — новый фреймворк, позволяющий LLM адаптивно решать, когда использовать CoT. AdaCoT формулирует адаптивное рассуждение как задачу оптимизации по Парето, которая стремится сбалансировать производительность модели с затратами, связанными с использованием CoT (как частотой, так и вычислительными издержками). Мы предлагаем метод, основанный на обучении с подкреплением (RL), в частности, использующий Proximal Policy Optimization (PPO), для динамического управления границей принятия решений о запуске CoT путем регулирования штрафных коэффициентов, что позволяет модели определять необходимость CoT на основе неявной сложности запроса. Ключевым техническим вкладом является Selective Loss Masking (SLM), разработанный для предотвращения коллапса границы принятия решений в ходе многоэтапного обучения RL, обеспечивая устойчивое и стабильное адаптивное срабатывание. Экспериментальные результаты показывают, что AdaCoT успешно находит оптимальную границу Парето, значительно сокращая использование CoT для запросов, не требующих сложных рассуждений. Например, на нашем тестовом наборе производственных данных AdaCoT снизил частоту срабатывания CoT до 3,18% и уменьшил среднее количество токенов в ответе на 69,06%, сохраняя при этом высокую производительность на сложных задачах.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities but
often face challenges with tasks requiring sophisticated reasoning. While
Chain-of-Thought (CoT) prompting significantly enhances reasoning, it
indiscriminately generates lengthy reasoning steps for all queries, leading to
substantial computational costs and inefficiency, especially for simpler
inputs. To address this critical issue, we introduce AdaCoT (Adaptive
Chain-of-Thought), a novel framework enabling LLMs to adaptively decide when to
invoke CoT. AdaCoT framed adaptive reasoning as a Pareto optimization problem
that seeks to balance model performance with the costs associated with CoT
invocation (both frequency and computational overhead). We propose a
reinforcement learning (RL) based method, specifically utilizing Proximal
Policy Optimization (PPO), to dynamically control the CoT triggering decision
boundary by adjusting penalty coefficients, thereby allowing the model to
determine CoT necessity based on implicit query complexity. A key technical
contribution is Selective Loss Masking (SLM), designed to counteract decision
boundary collapse during multi-stage RL training, ensuring robust and stable
adaptive triggering. Experimental results demonstrate that AdaCoT successfully
navigates the Pareto frontier, achieving substantial reductions in CoT usage
for queries not requiring elaborate reasoning. For instance, on our production
traffic testset, AdaCoT reduced CoT triggering rates to as low as 3.18\% and
decreased average response tokens by 69.06%, while maintaining high performance
on complex tasks.Summary
AI-Generated Summary