Una búsqueda verificable no es una cadena de pensamiento aprendible.

Resumen

Es tentador suponer que cualquier tarea resoluble mediante un programa corto puede enseñarse a un modelo como su cadena de pensamiento: escribir los pasos, ajustar finamente, y el modelo los sigue. Este artículo demuestra que esta suposición falla para una clase identificable de procedimientos. El banco de pruebas consta de nueve tareas de razonamiento, cada una proveniente de un generador determinista; las divisiones pública y oculta comparten generadores, por lo que los datos retenidos actúan como proxy de la precisión en la prueba. Los generadores se revierten a solucionadores en Python, se renderizan como cadena de pensamiento y se destilan en un LoRA de rango ≤ 32 sobre un modelo Nemotron de 30B (3,5B activos). Las tareas computables hacia adelante se instalan fácilmente: búsqueda/aritmética y una tarea booleana de 8 bits se transfieren (≥ 0,99 y 0,68). La criptoaritmética no lo logra: destilar su búsqueda con retroceso se mantiene en 0,01-0,07 a lo largo de once diseños de cadena de pensamiento, aprendizaje por refuerzo a partir de recompensas verificables y autoentrenamiento, aunque un solucionador de búsqueda responde al 71% de los casos. Esto no es una brecha de capacidad. El modelo realiza la aritmética en el 97-100% de las líneas y clasifica el cifrado correcto entre sus ocho primeros en el 71%; no puede llevar la búsqueda hacia adelante como una derivación de izquierda a derecha. El ajuste fino aprende la forma de un paso de eliminación verificable, mientras que sus veredictos se convierten en plantillas incondicionales, correctas solo el 16-57% de las veces ("veredicto como token"). El techo se mantiene a través de backbones desde 3B hasta 671B y a través de ajuste fino y prompting; una intervención controlada aísla la causa: revelar la clave del cifrado, lo que vuelve la derivación hacia adelante, eleva los mismos casos de 0,03 a 0,57. Cuando la única solución de un procedimiento es la búsqueda sobre una estructura libre de información, no existe una cadena de pensamiento hacia adelante fiel que imitar. La tarea se vuelve aprendible solo eliminando la búsqueda, precomputando su núcleo combinatorio en un catálogo y reduciendo el trazo a recuerdo más verificación; la solución en primer lugar alcanza LB privada 0,92 de esta manera. Lo que se destila es memorización y verificación, no búsqueda.

English

It is tempting to assume any task solvable by a short program can be taught to a model as its chain-of-thought: write the steps out, fine-tune, and the model follows. This paper shows the assumption fails for an identifiable class of procedures. The testbed is nine reasoning tasks, each from a deterministic generator; public and hidden splits share generators, so held-out data proxies test accuracy. I reverse-engineer the generators into Python solvers, render them as chain-of-thought, and distill into a rank-<= 32 LoRA over a 30B (3.5B-active) Nemotron model. Forward-computable tasks install readily: lookup/arithmetic and an 8-bit boolean task transfer (>= 0.99 and 0.68). Cryptarithm does not: distilling its backtracking search holds at 0.01-0.07 across eleven chain-of-thought designs, RL from verifiable rewards, and self-training, even though a search solver answers 71% of instances. This is not a capability gap. The model does the arithmetic on 97-100% of lines and ranks the correct cipher in its top eight on 71%; it cannot carry the search forward as a left-to-right derivation. Fine-tuning learns the shape of a verifiable elimination step while its verdicts become unconditional templates, correct only 16-57% of the time ("verdict-as-token"). The ceiling holds across backbones from 3B to 671B and across fine-tuning and prompting; a controlled intervention isolates the cause: revealing the cipher key, which turns the derivation forward, lifts the same instances from 0.03 to 0.57. When a procedure's only solution is search over information-free structure, no faithful forward chain-of-thought exists to imitate. The task becomes learnable only by removing the search, precomputing its combinatorial core into a catalog and reducing the trace to recall plus verification; the 1st-place solution reaches Private LB 0.92 this way. What distills is memorization and verification, not search.