Верифицируемый поиск не является обучаемой цепочкой рассуждений

Аннотация

Может показаться заманчивым предположить, что любую задачу, решаемую короткой программой, можно обучить модели как её цепочку рассуждений: выписать шаги, дообучить, и модель следует им. В этой статье показано, что данное предположение не выполняется для определённого класса процедур. В качестве тестовой среды используются девять задач на рассуждение, каждая из детерминированного генератора; открытые и скрытые разделы используют одни и те же генераторы, поэтому отложенные данные служат прокси для точности на тесте. Я провожу обратную разработку генераторов в решатели на Python, представляю их в виде цепочки рассуждений и дистиллирую в LoRA ранга ≤ 32 поверх модели Nemotron размером 30B (3.5B активных). Задачи, вычислимые прямым ходом, устанавливаются легко: задачи поиска/арифметики и 8-битная булева задача переносятся (≥ 0.99 и 0.68). Криптарифм — нет: дистилляция его поиска с возвратом держится на уровне 0.01–0.07 при одиннадцати вариантах цепочки рассуждений, обучении с подкреплением на проверяемых вознаграждениях и самообучении, хотя решатель на основе поиска отвечает на 71% примеров. Это не разрыв в способностях. Модель выполняет арифметические действия в 97–100% строк и помещает правильный шифр в свою восьмёрку лучших в 71% случаев; но она не может провести поиск вперёд как вывод слева направо. Тонкая настройка изучает форму проверяемого шага исключения, в то время как её вердикты становятся безусловными шаблонами, правильными лишь в 16–57% случаев («вердикт-как-токен»). Этот потолок сохраняется для базовых моделей от 3B до 671B и при тонкой настройке и промптинге; контролируемое вмешательство изолирует причину: раскрытие ключа шифра, который превращает вывод в прямой, поднимает те же примеры с 0.03 до 0.57. Когда единственное решение процедуры — это поиск по структуре, лишённой информации, не существует достоверной прямой цепочки рассуждений для подражания. Задача становится обучаемой только при удалении поиска, предварительном вычислении его комбинаторной основы в каталог и сведении трассы к запоминанию плюс проверке; решение, занявшее первое место, достигает таким образом 0.92 в скрытом лидерборде. Дистиллируется запоминание и проверка, а не поиск.

English

It is tempting to assume any task solvable by a short program can be taught to a model as its chain-of-thought: write the steps out, fine-tune, and the model follows. This paper shows the assumption fails for an identifiable class of procedures. The testbed is nine reasoning tasks, each from a deterministic generator; public and hidden splits share generators, so held-out data proxies test accuracy. I reverse-engineer the generators into Python solvers, render them as chain-of-thought, and distill into a rank-<= 32 LoRA over a 30B (3.5B-active) Nemotron model. Forward-computable tasks install readily: lookup/arithmetic and an 8-bit boolean task transfer (>= 0.99 and 0.68). Cryptarithm does not: distilling its backtracking search holds at 0.01-0.07 across eleven chain-of-thought designs, RL from verifiable rewards, and self-training, even though a search solver answers 71% of instances. This is not a capability gap. The model does the arithmetic on 97-100% of lines and ranks the correct cipher in its top eight on 71%; it cannot carry the search forward as a left-to-right derivation. Fine-tuning learns the shape of a verifiable elimination step while its verdicts become unconditional templates, correct only 16-57% of the time ("verdict-as-token"). The ceiling holds across backbones from 3B to 671B and across fine-tuning and prompting; a controlled intervention isolates the cause: revealing the cipher key, which turns the derivation forward, lifts the same instances from 0.03 to 0.57. When a procedure's only solution is search over information-free structure, no faithful forward chain-of-thought exists to imitate. The task becomes learnable only by removing the search, precomputing its combinatorial core into a catalog and reducing the trace to recall plus verification; the 1st-place solution reaches Private LB 0.92 this way. What distills is memorization and verification, not search.