Agentische Chain-of-Thought-aansturing voor efficiënt en beheersbaar LLM-redeneren

Samenvatting

Grote taalmodellen verbeteren de nauwkeurigheid van eindantwoorden door uitgebreide keten-van-gedachte redeneringen, maar besteden vaak inefficiënt tokens en bieden weinig controle tijdens inferentie. Bestaande efficiënte redeneermethoden controleren de denkduur door sporen in te korten, voortijdig te stoppen of samen te drukken, waardoor impliciet blijft hoe het model denkt. In dit artikel stellen we Agentic Chain-of-Thought Steering (ACTS) voor, dat het sturen van redeneringen formuleert als een Markov beslissingsproces waarbij een controller-agent tijdens inferentie een bevroren redeneerder adaptief stuurt. Bij elke stap observeert de controller het redeneerspoor en het resterende denkbudget, en geeft vervolgens een stuuractie bestaande uit een redeneerstrategie en een stuurzin die de volgende stap van de redeneerder initieert. Dit maakt budgetbewuste strategiecontrole mogelijk voor efficiënt redeneren, terwijl de generatiecontinuïteit van de redeneerder behouden blijft. We initialiseren de controller-agent vanuit onze geconstrueerde synthetische stuurpaden met multi-budget augmentatie, en optimaliseren deze verder via versterkend leren met budget-afhankelijke beloningsvormgeving. Experimenten op meerdere benchmarks tonen aan dat ACTS de prestaties van volledig denken evenaart met aanzienlijke tokenbesparingen, en controleerbare afwegingen tussen nauwkeurigheid en efficiëntie mogelijk maakt voor verschillende redeneerders en taken. De code is beschikbaar op https://github.com/Andree-9/ACTS.

English

Large language models improve final-answer accuracy through extended chain-of-thought reasoning, but often spend tokens inefficiently and offer little inference-time control. Existing efficient reasoning methods control thinking length by shortening, early-stopping, or compressing traces, leaving how the model thinks implicit. In this paper, we propose Agentic Chain-of-Thought Steering (ACTS), which formulates reasoning steering as a Markov decision process where a controller agent adaptively steers a frozen reasoner during inference. At each step, the controller observes the reasoning trace and remaining thinking budget, then issues a steering action consisting of a reasoning strategy and a steering phrase that initiates the next reasoner step. This enables budget-aware strategy control for efficient reasoning while preserving the reasoner's generation continuity. We initialize the controller agent from our constructed synthetic steering trajectories with multi-budget augmentation, and further optimize it via reinforcement learning with budget-conditioned reward shaping. Experiments across multiple benchmarks show that ACTS matches full-thinking performance with substantial token savings, and enables controllable accuracy-efficiency trade-offs across different reasoners and tasks. The code is available at https://github.com/Andree-9/ACTS.