Une recherche vérifiable n'est pas une chaîne de pensée apprenable.
A Verifiable Search Is Not a Learnable Chain-of-Thought
June 20, 2026
Auteurs: Harsh Patel
cs.AI
Résumé
Il est tentant de supposer que toute tâche résoluble par un court programme peut être enseignée à un modèle sous forme de chaîne de pensée : écrire les étapes, ajuster finement, et le modèle suit. Cet article montre que cette hypothèse échoue pour une classe identifiable de procédures. Le banc d'essai comprend neuf tâches de raisonnement, chacune issue d'un générateur déterministe ; les partitions publique et cachée partagent les générateurs, de sorte que les données non divulguées servent de proxy pour la précision en test. Je rétro-ingénie les générateurs en solveurs Python, les rends sous forme de chaîne de pensée, et les distille dans un LoRA de rang <= 32 sur un modèle Nemotron de 30B (3,5B actifs). Les tâches calculables de manière anticipée s'installent facilement : recherche/arithmétique et une tâche booléenne sur 8 bits se transfèrent (>= 0,99 et 0,68). La cryptarithmétique échoue : distiller sa recherche par retour arrière plafonne à 0,01-0,07 sur onze conceptions de chaîne de pensée, l'apprentissage par renforcement à partir de récompenses vérifiables, et l'auto-apprentissage, bien qu'un solveur par recherche réponde à 71 % des instances. Ce n'est pas un écart de capacité. Le modèle effectue le calcul arithmétique sur 97-100 % des lignes et classe le chiffre correct dans ses huit premiers à 71 % ; il ne peut pas poursuivre la recherche comme une dérivation de gauche à droite. L'ajustement fin apprend la forme d'une étape d'élimination vérifiable tandis que ses verdicts deviennent des modèles inconditionnels, corrects seulement 16-57 % du temps (« verdict-comme-jeton »). Le plafond persiste sur des architectures de 3B à 671B et à travers l'ajustement fin et l'incitation ; une intervention contrôlée isole la cause : révéler la clé de chiffrement, qui rend la dérivation anticipée, élève les mêmes instances de 0,03 à 0,57. Lorsque la seule solution d'une procédure est une recherche sur une structure sans information, aucune chaîne de pensée fidèle et anticipée n'existe à imiter. La tâche devient apprenable seulement en supprimant la recherche, en précalculant son noyau combinatoire dans un catalogue et en réduisant la trace à un rappel plus une vérification ; la solution de première place atteint ainsi 0,92 sur le LB privé. Ce qui se distille est la mémorisation et la vérification, non la recherche.
English
It is tempting to assume any task solvable by a short program can be taught to a model as its chain-of-thought: write the steps out, fine-tune, and the model follows. This paper shows the assumption fails for an identifiable class of procedures. The testbed is nine reasoning tasks, each from a deterministic generator; public and hidden splits share generators, so held-out data proxies test accuracy. I reverse-engineer the generators into Python solvers, render them as chain-of-thought, and distill into a rank-<= 32 LoRA over a 30B (3.5B-active) Nemotron model. Forward-computable tasks install readily: lookup/arithmetic and an 8-bit boolean task transfer (>= 0.99 and 0.68). Cryptarithm does not: distilling its backtracking search holds at 0.01-0.07 across eleven chain-of-thought designs, RL from verifiable rewards, and self-training, even though a search solver answers 71% of instances. This is not a capability gap. The model does the arithmetic on 97-100% of lines and ranks the correct cipher in its top eight on 71%; it cannot carry the search forward as a left-to-right derivation. Fine-tuning learns the shape of a verifiable elimination step while its verdicts become unconditional templates, correct only 16-57% of the time ("verdict-as-token"). The ceiling holds across backbones from 3B to 671B and across fine-tuning and prompting; a controlled intervention isolates the cause: revealing the cipher key, which turns the derivation forward, lifts the same instances from 0.03 to 0.57. When a procedure's only solution is search over information-free structure, no faithful forward chain-of-thought exists to imitate. The task becomes learnable only by removing the search, precomputing its combinatorial core into a catalog and reducing the trace to recall plus verification; the 1st-place solution reaches Private LB 0.92 this way. What distills is memorization and verification, not search.