CopT: Kontrastives On-Policy-Denken mit kontinuierlichen Räumen für allgemeines und agentisches Schlussfolgern

Zusammenfassung

Chain-of-Thought (CoT) ist eine Standardmethode zur Erschließung von Denkfähigkeiten großer Sprachmodelle (Large Language Models, LLMs). Das gängige CoT-Paradigma behandelt Denken jedoch als Voraussetzung für das Beantworten, was den Zugang zu plausiblen Antworten verzögern und unnötige Token-Kosten verursachen kann – selbst wenn das Modell in der Lage ist, eine Antwort vor einer ausgedehnten Denkphase zu identifizieren. Dieses Verhalten wird als performatives Denken bezeichnet. In dieser Arbeit führen wir CopT ein, eine umgestaltete Reasoning-Pipeline, die die übliche Reihenfolge von Denken und Antworten umkehrt. Anstatt vor dem Antworten zu denken, wird bei CopT zunächst eine Entwurfsantwort erzeugt und anschließend ein darauf aufbauendes On-Policy-Denken durchgeführt, das auf der eigenen Entwurfsantwort basiert, um diese zu reflektieren und zu korrigieren. Um zu bewerten, ob der Entwurfsantwort vertraut werden kann, nutzt CopT kontinuierliche Einbettungen als Inferenzzeit-Kontrastverifizierer. Insbesondere wird die Unterstützung des Modells für dieselben generierten Token unter diskreten Token-Eingaben und kontinuierlichen Einbettungseingaben verglichen, woraus ein sequenzebener Reverse-KL-Schätzer für die Zuverlässigkeit der Antwort resultiert. Unsere Analyse zeigt, dass der erwartete Schätzwert unter bestimmten Annahmen der gegenseitigen Information zwischen dem nicht aufgelösten latenten Zustand und dem ausgegebenen Antwort-Token entspricht, was erklärt, warum er antwortrelevante Unsicherheit erfasst und nicht beliebige Unsicherheit im latenten Zustand. Wenn die Antwort als nicht ausreichend zuverlässig eingestuft wird, führt CopT ein weiteres On-Policy-Denken durch. Dabei steuert ein zweiter KL-Schätzer dynamisch die Sichtbarkeit der Entwurfsantwort, um nützliche Teilinformationen zu bewahren, während das Risiko verringert wird, durch unzuverlässige Inhalte in die Irre geführt zu werden. In Aufgaben aus Mathematik, Programmierung und agentischem Reasoning verbessert CopT die maximale Genauigkeit um bis zu 23 % und reduziert den Token-Verbrauch um bis zu 57 % bei vergleichbarer oder höherer Genauigkeit – ohne zusätzliches Training. Der Code ist verfügbar unter https://github.com/sdc17/CopT.

English

Chain-of-thought (CoT) is a standard approach for eliciting reasoning capabilities from large language models (LLMs). However, the common CoT paradigm treats thinking as a prerequisite for answering, which can delay access to plausible answers and incur unnecessary token costs even when the model is able to identify an answer before extended thinking, a behavior known as performative reasoning. In this paper, we introduce CopT, a reformulated reasoning pipeline that reverses the usual order of thinking and answering. Instead of thinking before answering, CopT first elicits a draft answer and then invokes subsequent on-policy thinking conditioned on its own draft answer for reflection and correction. To assess whether the draft answer should be trusted, CopT recasts continuous embeddings as inference-time contrastive verifiers. Specifically, it contrasts the model's support for the same generated tokens under discrete-token inputs and continuous-embedding inputs, yielding a sequence-level reverse KL estimator for answer reliability. Our analysis shows that under certain assumptions, the expected estimate equals the mutual information between the unresolved latent state and the emitted answer token, explaining why it captures answer-relevant uncertainty rather than arbitrary uncertainty in the latent state. When the answer is deemed insufficiently reliable, CopT performs further on-policy thinking, where a second KL estimator dynamically controls draft-answer visibility, preserving useful partial information while reducing the risk of being misled by unreliable content. Across mathematics, coding, and agentic reasoning tasks, CopT improves peak accuracy by up to 23% and reduces token usage by up to 57% at comparable or higher accuracy, without any additional training. The code is available at https://github.com/sdc17/CopT.