O Jogo da Imitação: O Imitador de Máquina de Turing é um Raciocinador Generalizável em Comprimento
The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner
July 17, 2025
Autores: Zhouqi Hua, Wenwei Zhang, Chengqi Lyu, Yuzhe Gu, Songyang Gao, Kuikun Liu, Kai Chen
cs.AI
Resumo
A generalização de comprimento, a capacidade de resolver problemas com sequências mais longas do que aquelas observadas durante o treinamento, representa um desafio central para os grandes modelos de linguagem (LLMs) baseados em Transformers. Embora os estudos existentes tenham se concentrado predominantemente em abordagens orientadas por dados para operações aritméticas e tarefas de manipulação simbólica, essas abordagens tendem a ser específicas para cada tarefa, com desempenho geral limitado. Para buscar uma solução mais geral, este artigo foca em um caso mais amplo de problemas de raciocínio que são computáveis, ou seja, problemas que algoritmos podem resolver e, portanto, podem ser resolvidos pela Máquina de Turing. A partir dessa perspectiva, este artigo propõe o Turing MAchine Imitation Learning (TAIL) para melhorar a capacidade de generalização de comprimento dos LLMs. O TAIL sintetiza dados de cadeia de pensamentos (CoT) que imitam o processo de execução de uma Máquina de Turing por meio de programas de computador, expandindo linearmente os passos de raciocínio em estados atômicos para aliviar o aprendizado por atalhos e incorporando um mecanismo explícito de busca de memória para reduzir as dificuldades de acesso dinâmico e de longo alcance a dados em operações elementares. Para validar a confiabilidade e universalidade do TAIL, construímos um conjunto de dados sintético desafiador, abrangendo 8 classes de algoritmos e 18 tarefas. Sem recursos adicionais, o TAIL melhora significativamente a capacidade de generalização de comprimento, bem como o desempenho do Qwen2.5-7B em várias tarefas, utilizando apenas dados sintéticos, superando métodos anteriores e o DeepSeek-R1. Os resultados experimentais revelam que os conceitos-chave da Máquina de Turing, em vez dos estilos de pensamento, são indispensáveis para o TAIL na generalização de comprimento, através dos quais o modelo exibe comportamentos de leitura e escrita consistentes com as propriedades da Máquina de Turing em suas camadas de atenção. Este trabalho fornece uma direção promissora para pesquisas futuras no aprendizado de raciocínio de LLMs a partir de dados sintéticos.
English
Length generalization, the ability to solve problems of longer sequences than
those observed during training, poses a core challenge of Transformer-based
large language models (LLM). Although existing studies have predominantly
focused on data-driven approaches for arithmetic operations and symbolic
manipulation tasks, these approaches tend to be task-specific with limited
overall performance. To pursue a more general solution, this paper focuses on a
broader case of reasoning problems that are computable, i.e., problems that
algorithms can solve, thus can be solved by the Turing Machine. From this
perspective, this paper proposes Turing MAchine Imitation Learning (TAIL) to
improve the length generalization ability of LLMs. TAIL synthesizes
chain-of-thoughts (CoT) data that imitate the execution process of a Turing
Machine by computer programs, which linearly expands the reasoning steps into
atomic states to alleviate shortcut learning and explicit memory fetch
mechanism to reduce the difficulties of dynamic and long-range data access in
elementary operations. To validate the reliability and universality of TAIL, we
construct a challenging synthetic dataset covering 8 classes of algorithms and
18 tasks. Without bells and whistles, TAIL significantly improves the length
generalization ability as well as the performance of Qwen2.5-7B on various
tasks using only synthetic data, surpassing previous methods and DeepSeek-R1.
The experimental results reveal that the key concepts in the Turing Machine,
instead of the thinking styles, are indispensable for TAIL for length
generalization, through which the model exhibits read-and-write behaviors
consistent with the properties of the Turing Machine in their attention layers.
This work provides a promising direction for future research in the learning of
LLM reasoning from synthetic data.