효율적이고 제어 가능한 LLM 추론을 위한 에이전트 기반 Chain-of-Thought 유도
Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning
June 2, 2026
저자: Yu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley
cs.AI
초록
대규모 언어 모델은 확장된 사고 사슬 추론을 통해 최종 응답 정확도를 향상시키지만, 종종 토큰을 비효율적으로 소비하고 추론 시간 제어 기능이 거의 없습니다. 기존의 효율적 추론 방법은 단축, 조기 중단 또는 추적 압축을 통해 사고 길이를 제어하며, 모델이 어떻게 생각하는지는 암시적으로 남겨둡니다. 본 논문에서는 추론 조향을 마르코프 결정 과정으로 공식화하는 에이전트 기반 사고 사슬 조향(ACTS)을 제안합니다. 이 과정에서 제어기 에이전트가 추론 중에 고정된 추론기를 적응적으로 조향합니다. 각 단계에서 제어기는 추론 추적과 남은 사고 예산을 관찰한 후, 추론 전략과 다음 추론기 단계를 시작하는 조향 구절로 구성된 조향 행동을 발행합니다. 이를 통해 추론기의 생성 연속성을 유지하면서 효율적 추론을 위한 예산 인식 전략 제어가 가능해집니다. 우리는 다중 예산 증강을 통해 구축한 합성 조향 궤적으로부터 제어기 에이전트를 초기화하고, 예산 조건부 보상 형성을 통한 강화 학습으로 이를 추가 최적화합니다. 여러 벤치마크에 걸친 실험 결과, ACTS가 상당한 토큰 절감으로 완전 사고 성능에 도달하며, 다양한 추론기와 작업에서 제어 가능한 정확도-효율성 트레이드오프를 가능하게 함을 보여줍니다. 코드는 https://github.com/Andree-9/ACTS에서 확인할 수 있습니다.
English
Large language models improve final-answer accuracy through extended chain-of-thought reasoning, but often spend tokens inefficiently and offer little inference-time control. Existing efficient reasoning methods control thinking length by shortening, early-stopping, or compressing traces, leaving how the model thinks implicit. In this paper, we propose Agentic Chain-of-Thought Steering (ACTS), which formulates reasoning steering as a Markov decision process where a controller agent adaptively steers a frozen reasoner during inference. At each step, the controller observes the reasoning trace and remaining thinking budget, then issues a steering action consisting of a reasoning strategy and a steering phrase that initiates the next reasoner step. This enables budget-aware strategy control for efficient reasoning while preserving the reasoner's generation continuity. We initialize the controller agent from our constructed synthetic steering trajectories with multi-budget augmentation, and further optimize it via reinforcement learning with budget-conditioned reward shaping. Experiments across multiple benchmarks show that ACTS matches full-thinking performance with substantial token savings, and enables controllable accuracy-efficiency trade-offs across different reasoners and tasks. The code is available at https://github.com/Andree-9/ACTS.