ChatPaper.aiChatPaper

Игра в имитацию: Имитатор машины Тьюринга обладает обобщаемостью по длине рассуждений

The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner

July 17, 2025
Авторы: Zhouqi Hua, Wenwei Zhang, Chengqi Lyu, Yuzhe Gu, Songyang Gao, Kuikun Liu, Kai Chen
cs.AI

Аннотация

Обобщение по длине, способность решать задачи с более длинными последовательностями, чем те, что наблюдались в процессе обучения, представляет собой ключевую проблему для крупных языковых моделей (LLM), основанных на архитектуре Transformer. Хотя существующие исследования в основном сосредоточены на подходах, основанных на данных, для арифметических операций и задач символьной манипуляции, такие подходы, как правило, являются узкоспециализированными и демонстрируют ограниченную общую производительность. В поисках более универсального решения данная работа рассматривает более широкий класс вычислимых задач, то есть задач, которые могут быть решены алгоритмами и, следовательно, машиной Тьюринга. С этой точки зрения в статье предлагается метод обучения с имитацией машины Тьюринга (Turing MAchine Imitation Learning, TAIL) для улучшения способности LLM к обобщению по длине. TAIL синтезирует данные, имитирующие процесс выполнения машины Тьюринга с помощью компьютерных программ, линейно расширяя шаги рассуждения до атомарных состояний, чтобы уменьшить эффект "обучения на коротких путях", и использует механизм явного извлечения данных для снижения сложности динамического и дальнодействующего доступа к данным в элементарных операциях. Для проверки надежности и универсальности TAIL был создан сложный синтетический набор данных, охватывающий 8 классов алгоритмов и 18 задач. Без дополнительных усложнений TAIL значительно улучшает способность к обобщению по длине, а также производительность модели Qwen2.5-7B на различных задачах, используя только синтетические данные, превосходя предыдущие методы и DeepSeek-R1. Результаты экспериментов показывают, что ключевые концепции машины Тьюринга, а не стили мышления, являются необходимыми для TAIL для обобщения по длине, благодаря чему модель демонстрирует поведение чтения и записи, согласующееся со свойствами машины Тьюринга в своих слоях внимания. Данная работа открывает перспективное направление для будущих исследований в области обучения рассуждению LLM на основе синтетических данных.
English
Length generalization, the ability to solve problems of longer sequences than those observed during training, poses a core challenge of Transformer-based large language models (LLM). Although existing studies have predominantly focused on data-driven approaches for arithmetic operations and symbolic manipulation tasks, these approaches tend to be task-specific with limited overall performance. To pursue a more general solution, this paper focuses on a broader case of reasoning problems that are computable, i.e., problems that algorithms can solve, thus can be solved by the Turing Machine. From this perspective, this paper proposes Turing MAchine Imitation Learning (TAIL) to improve the length generalization ability of LLMs. TAIL synthesizes chain-of-thoughts (CoT) data that imitate the execution process of a Turing Machine by computer programs, which linearly expands the reasoning steps into atomic states to alleviate shortcut learning and explicit memory fetch mechanism to reduce the difficulties of dynamic and long-range data access in elementary operations. To validate the reliability and universality of TAIL, we construct a challenging synthetic dataset covering 8 classes of algorithms and 18 tasks. Without bells and whistles, TAIL significantly improves the length generalization ability as well as the performance of Qwen2.5-7B on various tasks using only synthetic data, surpassing previous methods and DeepSeek-R1. The experimental results reveal that the key concepts in the Turing Machine, instead of the thinking styles, are indispensable for TAIL for length generalization, through which the model exhibits read-and-write behaviors consistent with the properties of the Turing Machine in their attention layers. This work provides a promising direction for future research in the learning of LLM reasoning from synthetic data.
PDF331July 18, 2025