Een verifieerbare zoektocht is geen leerbare redeneerketen.
A Verifiable Search Is Not a Learnable Chain-of-Thought
June 20, 2026
Auteurs: Harsh Patel
cs.AI
Samenvatting
Het is verleidelijk om aan te nemen dat elke taak die door een kort programma kan worden opgelost, aan een model kan worden geleerd als zijn redeneringsketen: schrijf de stappen uit, stem fijn, en het model volgt. Dit artikel toont aan dat deze aanname faalt voor een identificeerbare klasse van procedures. De testomgeving bestaat uit negen redeneertaken, elk afkomstig van een deterministische generator; openbare en verborgen splitsingen delen generatoren, dus niet-geziene data is een proxy voor testnauwkeurigheid. Ik reverse-engineer de generatoren naar Python-oplossingen, geef ze weer als redeneringsketen, en distilleer ze in een LoRA met rang ≤ 32 bovenop een 30B (3,5B actief) Nemotron-model. Vooruit-rekenbare taken installeren zich gemakkelijk: opzoek-/rekenkundige taken en een 8-bits boolean-taak transfereren (≥ 0,99 en 0,68). Cryptaritmetica niet: het distilleren van de backtracking-zoektocht blijft steken op 0,01-0,07 bij elf ontwerpen van redeneringsketens, reinforcement learning met verifieerbare beloningen, en zelftraining, hoewel een zoekoplossing 71% van de gevallen beantwoordt. Dit is geen capaciteitskloof. Het model voert de rekenkunde uit op 97-100% van de regels en rangschikt de juiste cryptar cijfercode in de top acht bij 71%; het kan de zoektocht niet als een links-naar-rechts afleiding voortzetten. Fijnstemmen leert de vorm van een verifieerbare eliminatiestap, terwijl de uitspraken onvoorwaardelijke sjablonen worden, slechts 16-57% van de tijd correct ("uitspraak-als-token"). Het plafond blijft gelden voor backbones van 3B tot 671B en voor fijnstemmen en prompting; een gecontroleerde interventie isoleert de oorzaak: het onthullen van de cryptarische sleutel, die de afleiding voorwaarts maakt, verhoogt dezelfde instanties van 0,03 naar 0,57. Wanneer de enige oplossing van een procedure zoeken is over een informatievrije structuur, bestaat er geen getrouwe voorwaartse redeneringsketen om te imiteren. De taak wordt alleen leerbaar door het zoeken te verwijderen, de combinatorische kern ervan voor te berekenen in een catalogus en de trace te reduceren tot herinneren plus verificatie; de eersteklasoplossing bereikt op deze manier Private LB 0,92. Wat distilleert is memorisatie en verificatie, niet zoeken.
English
It is tempting to assume any task solvable by a short program can be taught to a model as its chain-of-thought: write the steps out, fine-tune, and the model follows. This paper shows the assumption fails for an identifiable class of procedures. The testbed is nine reasoning tasks, each from a deterministic generator; public and hidden splits share generators, so held-out data proxies test accuracy. I reverse-engineer the generators into Python solvers, render them as chain-of-thought, and distill into a rank-<= 32 LoRA over a 30B (3.5B-active) Nemotron model. Forward-computable tasks install readily: lookup/arithmetic and an 8-bit boolean task transfer (>= 0.99 and 0.68). Cryptarithm does not: distilling its backtracking search holds at 0.01-0.07 across eleven chain-of-thought designs, RL from verifiable rewards, and self-training, even though a search solver answers 71% of instances. This is not a capability gap. The model does the arithmetic on 97-100% of lines and ranks the correct cipher in its top eight on 71%; it cannot carry the search forward as a left-to-right derivation. Fine-tuning learns the shape of a verifiable elimination step while its verdicts become unconditional templates, correct only 16-57% of the time ("verdict-as-token"). The ceiling holds across backbones from 3B to 671B and across fine-tuning and prompting; a controlled intervention isolates the cause: revealing the cipher key, which turns the derivation forward, lifts the same instances from 0.03 to 0.57. When a procedure's only solution is search over information-free structure, no faithful forward chain-of-thought exists to imitate. The task becomes learnable only by removing the search, precomputing its combinatorial core into a catalog and reducing the trace to recall plus verification; the 1st-place solution reaches Private LB 0.92 this way. What distills is memorization and verification, not search.