Eine verifizierbare Suche ist keine lernbare Chain-of-Thought.

Zusammenfassung

Es ist verlockend anzunehmen, dass jede durch ein kurzes Programm lösbare Aufgabe einem Modell als dessen Gedankenkette beigebracht werden kann: die Schritte aufschreiben, feinabstimmen, und das Modell folgt ihnen. Diese Arbeit zeigt, dass diese Annahme für eine identifizierbare Klasse von Verfahren fehlschlägt. Das Testfeld besteht aus neun Denkaufgaben, die jeweils von einem deterministischen Generator stammen; öffentliche und verborgene Aufteilungen teilen sich die Generatoren, sodass ausgelassene Daten als Proxy für die Testgenauigkeit dienen. Ich rekonstruiere die Generatoren rückwärts in Python-Löser, stelle sie als Gedankenketten dar und destilliere sie in eine LoRA mit Rang ≤ 32 über einem Nemotron-Modell mit 30B (3,5B aktiv). Vorwärts berechenbare Aufgaben lassen sich leicht installieren: Nachschlage-/Rechenaufgaben und eine 8-Bit-Boolesche Aufgabe übertragen sich (≥ 0,99 bzw. 0,68). Kryptarithm hingegen nicht: Die Destillation seiner Backtracking-Suche verharrt bei 0,01–0,07 über elf Gedankenketten-Designs, RL aus überprüfbaren Belohnungen und Selbsttraining, obwohl ein Suchlöser 71 % der Instanzen beantwortet. Dies ist keine Fähigkeitslücke. Das Modell führt die Arithmetik in 97–100 % der Zeilen aus und ordnet die korrekte Chiffre in 71 % der Fälle unter die ersten acht; es kann die Suche nicht als links-nach-rechts-Ableitung vorantreiben. Die Feinabstimmung erlernt die Form eines überprüfbaren Eliminationsschritts, während seine Urteile zu unbedingten Vorlagen werden, die nur in 16–57 % der Fälle korrekt sind („Verdict-as-Token“). Diese Obergrenze bleibt über Backbones von 3B bis 671B sowie über Feinabstimmung und Prompting hinweg bestehen; ein kontrollierter Eingriff isoliert die Ursache: Die Offenlegung des Chiffrierschlüssels, welche die Ableitung vorwärtsgerichtet macht, hebt dieselben Instanzen von 0,03 auf 0,57. Wenn die einzige Lösung eines Verfahrens eine Suche über eine informationsfreie Struktur ist, existiert keine getreue vorwärtsgerichtete Gedankenkette zur Nachahmung. Die Aufgabe wird nur dadurch erlernbar, dass man die Suche entfernt, ihren kombinatorischen Kern vorab in einen Katalog berechnet und die Ablaufverfolgung auf Abruf plus Verifikation reduziert; die erstplatzierte Lösung erreicht auf diese Weise Private LB 0,92. Was destilliert wird, ist Auswendiglernen und Verifikation, nicht Suche.

English

It is tempting to assume any task solvable by a short program can be taught to a model as its chain-of-thought: write the steps out, fine-tune, and the model follows. This paper shows the assumption fails for an identifiable class of procedures. The testbed is nine reasoning tasks, each from a deterministic generator; public and hidden splits share generators, so held-out data proxies test accuracy. I reverse-engineer the generators into Python solvers, render them as chain-of-thought, and distill into a rank-<= 32 LoRA over a 30B (3.5B-active) Nemotron model. Forward-computable tasks install readily: lookup/arithmetic and an 8-bit boolean task transfer (>= 0.99 and 0.68). Cryptarithm does not: distilling its backtracking search holds at 0.01-0.07 across eleven chain-of-thought designs, RL from verifiable rewards, and self-training, even though a search solver answers 71% of instances. This is not a capability gap. The model does the arithmetic on 97-100% of lines and ranks the correct cipher in its top eight on 71%; it cannot carry the search forward as a left-to-right derivation. Fine-tuning learns the shape of a verifiable elimination step while its verdicts become unconditional templates, correct only 16-57% of the time ("verdict-as-token"). The ceiling holds across backbones from 3B to 671B and across fine-tuning and prompting; a controlled intervention isolates the cause: revealing the cipher key, which turns the derivation forward, lifts the same instances from 0.03 to 0.57. When a procedure's only solution is search over information-free structure, no faithful forward chain-of-thought exists to imitate. The task becomes learnable only by removing the search, precomputing its combinatorial core into a catalog and reducing the trace to recall plus verification; the 1st-place solution reaches Private LB 0.92 this way. What distills is memorization and verification, not search.