CopT: 연속 공간에서의 대조적 온-정책 사고를 통한 일반 및 에이전트 추론
CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning
May 19, 2026
저자: Dachuan Shi, Hanlin Zhu, Xiangchi Yuan, Wanjia Zhao, Kejing Xia, Wen Xiao, Wenke Lee
cs.AI
초록
사고 사슬(Chain-of-thought, CoT)은 대규모 언어 모델(LLM)의 추론 능력을 이끌어내는 표준적인 접근 방식이다. 그러나 일반적인 CoT 패러다임은 사고를 답변의 전제 조건으로 취급하기 때문에, 모델이 확장된 사고 이전에 답을 식별할 수 있는 경우에도 합리적인 답변에 도달하는 것을 지연시키고 불필요한 토큰 비용을 초래할 수 있다. 이러한 행동은 수행적 추론(performative reasoning)으로 알려져 있다. 본 논문에서는 기존의 사고와 답변 순서를 뒤집는 개선된 추론 파이프라인인 CopT를 도입한다. CopT는 사고 후 답변을 생성하는 대신, 먼저 초안 답변을 도출한 후 자체 초안 답변을 조건으로 사고(정책 기반 사고)를 수행하여 반성 및 수정을 진행한다. 초안 답변의 신뢰성을 평가하기 위해, CopT는 연속 임베딩을 추론 시 대비 검증기(contrastive verifier)로 재구성한다. 구체적으로, 이산 토큰 입력과 연속 임베딩 입력 하에서 모델이 동일한 생성 토큰에 대해 보이는 지지를 대조하여 답변 신뢰성에 대한 시퀀스 수준의 역 KL 추정량(reverse KL estimator)을 산출한다. 본 분석에 따르면 특정 가정 하에서 기대 추정값은 해결되지 않은 잠재 상태와 생성된 답변 토큰 간의 상호 정보량과 일치하며, 이는 잠재 상태의 임의적 불확실성이 아닌 답변 관련 불확실성을 포착하는 이유를 설명한다. 답변이 충분히 신뢰할 수 없다고 판단되면, CopT는 추가적인 정책 기반 사고를 수행하며, 이때 두 번째 KL 추정량이 초안 답변의 가시성을 동적으로 제어하여 신뢰할 수 없는 내용에 오도될 위험을 줄이면서 유용한 부분 정보를 보존한다. 수학, 코딩 및 에이전트 기반 추론 작업에서 CopT는 최고 정확도를 최대 23% 향상시키고, 유사하거나 더 높은 정확도에서 토큰 사용량을 최대 57% 감소시키며, 추가 학습 없이 이러한 성과를 달성한다. 코드는 https://github.com/sdc17/CopT에서 확인할 수 있다.
English
Chain-of-thought (CoT) is a standard approach for eliciting reasoning capabilities from large language models (LLMs). However, the common CoT paradigm treats thinking as a prerequisite for answering, which can delay access to plausible answers and incur unnecessary token costs even when the model is able to identify an answer before extended thinking, a behavior known as performative reasoning. In this paper, we introduce CopT, a reformulated reasoning pipeline that reverses the usual order of thinking and answering. Instead of thinking before answering, CopT first elicits a draft answer and then invokes subsequent on-policy thinking conditioned on its own draft answer for reflection and correction. To assess whether the draft answer should be trusted, CopT recasts continuous embeddings as inference-time contrastive verifiers. Specifically, it contrasts the model's support for the same generated tokens under discrete-token inputs and continuous-embedding inputs, yielding a sequence-level reverse KL estimator for answer reliability. Our analysis shows that under certain assumptions, the expected estimate equals the mutual information between the unresolved latent state and the emitted answer token, explaining why it captures answer-relevant uncertainty rather than arbitrary uncertainty in the latent state. When the answer is deemed insufficiently reliable, CopT performs further on-policy thinking, where a second KL estimator dynamically controls draft-answer visibility, preserving useful partial information while reducing the risk of being misled by unreliable content. Across mathematics, coding, and agentic reasoning tasks, CopT improves peak accuracy by up to 23% and reduces token usage by up to 57% at comparable or higher accuracy, without any additional training. The code is available at https://github.com/sdc17/CopT.