El Juego de la Imitación: El Imitador de Máquina de Turing es un Razonador Generalizable en Longitud
The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner
July 17, 2025
Autores: Zhouqi Hua, Wenwei Zhang, Chengqi Lyu, Yuzhe Gu, Songyang Gao, Kuikun Liu, Kai Chen
cs.AI
Resumen
La generalización de longitud, la capacidad de resolver problemas con secuencias más largas que las observadas durante el entrenamiento, representa un desafío fundamental para los modelos de lenguaje grandes (LLM) basados en Transformers. Aunque los estudios existentes se han centrado principalmente en enfoques basados en datos para operaciones aritméticas y tareas de manipulación simbólica, estos enfoques tienden a ser específicos para cada tarea, con un rendimiento general limitado. Para buscar una solución más general, este artículo se enfoca en un caso más amplio de problemas de razonamiento que son computables, es decir, problemas que los algoritmos pueden resolver y, por lo tanto, pueden ser resueltos por la Máquina de Turing. Desde esta perspectiva, este artículo propone el Aprendizaje por Imitación de la Máquina de Turing (TAIL, por sus siglas en inglés) para mejorar la capacidad de generalización de longitud de los LLM. TAIL sintetiza datos de cadena de pensamientos (CoT) que imitan el proceso de ejecución de una Máquina de Turing mediante programas informáticos, expandiendo linealmente los pasos de razonamiento en estados atómicos para mitigar el aprendizaje de atajos e incorporando un mecanismo explícito de recuperación de memoria para reducir las dificultades de acceso dinámico y de largo alcance a los datos en operaciones elementales. Para validar la confiabilidad y universalidad de TAIL, construimos un conjunto de datos sintéticos desafiante que cubre 8 clases de algoritmos y 18 tareas. Sin elementos adicionales, TAIL mejora significativamente la capacidad de generalización de longitud, así como el rendimiento de Qwen2.5-7B en diversas tareas utilizando únicamente datos sintéticos, superando métodos anteriores y DeepSeek-R1. Los resultados experimentales revelan que los conceptos clave de la Máquina de Turing, en lugar de los estilos de pensamiento, son indispensables para TAIL en la generalización de longitud, a través de los cuales el modelo exhibe comportamientos de lectura y escritura consistentes con las propiedades de la Máquina de Turing en sus capas de atención. Este trabajo proporciona una dirección prometedora para futuras investigaciones en el aprendizaje del razonamiento de LLM a partir de datos sintéticos.
English
Length generalization, the ability to solve problems of longer sequences than
those observed during training, poses a core challenge of Transformer-based
large language models (LLM). Although existing studies have predominantly
focused on data-driven approaches for arithmetic operations and symbolic
manipulation tasks, these approaches tend to be task-specific with limited
overall performance. To pursue a more general solution, this paper focuses on a
broader case of reasoning problems that are computable, i.e., problems that
algorithms can solve, thus can be solved by the Turing Machine. From this
perspective, this paper proposes Turing MAchine Imitation Learning (TAIL) to
improve the length generalization ability of LLMs. TAIL synthesizes
chain-of-thoughts (CoT) data that imitate the execution process of a Turing
Machine by computer programs, which linearly expands the reasoning steps into
atomic states to alleviate shortcut learning and explicit memory fetch
mechanism to reduce the difficulties of dynamic and long-range data access in
elementary operations. To validate the reliability and universality of TAIL, we
construct a challenging synthetic dataset covering 8 classes of algorithms and
18 tasks. Without bells and whistles, TAIL significantly improves the length
generalization ability as well as the performance of Qwen2.5-7B on various
tasks using only synthetic data, surpassing previous methods and DeepSeek-R1.
The experimental results reveal that the key concepts in the Turing Machine,
instead of the thinking styles, are indispensable for TAIL for length
generalization, through which the model exhibits read-and-write behaviors
consistent with the properties of the Turing Machine in their attention layers.
This work provides a promising direction for future research in the learning of
LLM reasoning from synthetic data.