ChatPaper.aiChatPaper

CopT: Контрастивное мышление на основе текущей политики с непрерывными пространствами для общего и агентного рассуждения

CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning

May 19, 2026
Авторы: Dachuan Shi, Hanlin Zhu, Xiangchi Yuan, Wanjia Zhao, Kejing Xia, Wen Xiao, Wenke Lee
cs.AI

Аннотация

Цепочка рассуждений (CoT) представляет собой стандартный подход для извлечения способности к рассуждению из больших языковых моделей (LLM). Однако распространённая парадигма CoT рассматривает мышление как предварительное условие для ответа, что может задерживать доступ к правдоподобным ответам и приводить к излишним затратам токенов даже в тех случаях, когда модель способна определить ответ до развёрнутого мышления — такое поведение известно как перформативное рассуждение. В данной статье мы представляем CopT — переработанный конвейер рассуждений, который меняет обычный порядок мышления и ответа. Вместо того чтобы сначала думать, а затем отвечать, CopT сначала формирует черновой ответ, а затем инициирует последующее рассуждение по текущей политике, обусловленное этим черновым ответом, для рефлексии и коррекции. Чтобы оценить, следует ли доверять черновому ответу, CopT переосмысливает непрерывные эмбеддинги как контрастивные верификаторы на этапе инференса. В частности, он сопоставляет поддержку модели для одних и тех же сгенерированных токенов при входах в виде дискретных токенов и входах в виде непрерывных эмбеддингов, получая оценку обратного KL-расхождения на уровне последовательности для оценки надёжности ответа. Наш анализ показывает, что при определённых предположениях математическое ожидание этой оценки равно взаимной информации между неразрешённым скрытым состоянием и сгенерированным токеном ответа, что объясняет, почему она улавливает неопределённость, связанную с ответом, а не произвольную неопределённость скрытого состояния. Когда ответ признаётся недостаточно надёжным, CopT выполняет дальнейшее рассуждение по текущей политике, где вторая KL-оценка динамически контролирует видимость чернового ответа, сохраняя полезную частичную информацию и снижая риск быть введённым в заблуждение ненадёжным содержимым. В задачах математики, программирования и агентного рассуждения CopT повышает пиковую точность до 23% и снижает использование токенов до 57% при сопоставимой или более высокой точности, не требуя дополнительного обучения. Код доступен по адресу https://github.com/sdc17/CopT.
English
Chain-of-thought (CoT) is a standard approach for eliciting reasoning capabilities from large language models (LLMs). However, the common CoT paradigm treats thinking as a prerequisite for answering, which can delay access to plausible answers and incur unnecessary token costs even when the model is able to identify an answer before extended thinking, a behavior known as performative reasoning. In this paper, we introduce CopT, a reformulated reasoning pipeline that reverses the usual order of thinking and answering. Instead of thinking before answering, CopT first elicits a draft answer and then invokes subsequent on-policy thinking conditioned on its own draft answer for reflection and correction. To assess whether the draft answer should be trusted, CopT recasts continuous embeddings as inference-time contrastive verifiers. Specifically, it contrasts the model's support for the same generated tokens under discrete-token inputs and continuous-embedding inputs, yielding a sequence-level reverse KL estimator for answer reliability. Our analysis shows that under certain assumptions, the expected estimate equals the mutual information between the unresolved latent state and the emitted answer token, explaining why it captures answer-relevant uncertainty rather than arbitrary uncertainty in the latent state. When the answer is deemed insufficiently reliable, CopT performs further on-policy thinking, where a second KL estimator dynamically controls draft-answer visibility, preserving useful partial information while reducing the risk of being misled by unreliable content. Across mathematics, coding, and agentic reasoning tasks, CopT improves peak accuracy by up to 23% and reduces token usage by up to 57% at comparable or higher accuracy, without any additional training. The code is available at https://github.com/sdc17/CopT.