Direcionamento de Cadeia de Pensamento Agêntica para Raciocínio Eficiente e Controlável de LLM

Resumo

Grandes modelos de linguagem melhoram a precisão das respostas finais por meio de raciocínio em cadeia de pensamento estendido, mas frequentemente gastam tokens de forma ineficiente e oferecem pouco controle em tempo de inferência. Métodos existentes de raciocínio eficiente controlam o tempo de pensamento encurtando, interrompendo precocemente ou comprimindo trajetórias, deixando implícito como o modelo pensa. Neste artigo, propomos o Agentic Chain-of-Thought Steering (ACTS), que formula o direcionamento do raciocínio como um processo de decisão de Markov onde um agente controlador direciona adaptativamente um raciocinador congelado durante a inferência. A cada passo, o controlador observa a trajetória de raciocínio e o orçamento de pensamento restante, e então emite uma ação de direcionamento composta por uma estratégia de raciocínio e uma frase de direcionamento que inicia o próximo passo do raciocinador. Isso permite o controle de estratégia ciente de orçamento para raciocínio eficiente, preservando a continuidade de geração do raciocinador. Inicializamos o agente controlador a partir de nossas trajetórias de direcionamento sintéticas construídas com aumento multi-orçamento, e o otimizamos ainda mais por meio de aprendizado por reforço com modelagem de recompensa condicionada ao orçamento. Experimentos em diversos benchmarks mostram que o ACTS atinge desempenho equivalente ao pensamento completo com economia substancial de tokens, e possibilita compensações controláveis entre precisão e eficiência em diferentes raciocinadores e tarefas. O código está disponível em https://github.com/Andree-9/ACTS.

English

Large language models improve final-answer accuracy through extended chain-of-thought reasoning, but often spend tokens inefficiently and offer little inference-time control. Existing efficient reasoning methods control thinking length by shortening, early-stopping, or compressing traces, leaving how the model thinks implicit. In this paper, we propose Agentic Chain-of-Thought Steering (ACTS), which formulates reasoning steering as a Markov decision process where a controller agent adaptively steers a frozen reasoner during inference. At each step, the controller observes the reasoning trace and remaining thinking budget, then issues a steering action consisting of a reasoning strategy and a steering phrase that initiates the next reasoner step. This enables budget-aware strategy control for efficient reasoning while preserving the reasoner's generation continuity. We initialize the controller agent from our constructed synthetic steering trajectories with multi-budget augmentation, and further optimize it via reinforcement learning with budget-conditioned reward shaping. Experiments across multiple benchmarks show that ACTS matches full-thinking performance with substantial token savings, and enables controllable accuracy-efficiency trade-offs across different reasoners and tasks. The code is available at https://github.com/Andree-9/ACTS.