Le Jeu de l'Imitation : L'Imitateur de Machine de Turing est Généralisable en Longueur Raisonneur

papers.abstract

La généralisation en longueur, c'est-à-dire la capacité à résoudre des problèmes impliquant des séquences plus longues que celles observées lors de l'entraînement, représente un défi central pour les modèles de langage de grande taille (LLM) basés sur les Transformers. Bien que les études existantes se soient principalement concentrées sur des approches basées sur les données pour les opérations arithmétiques et les tâches de manipulation symbolique, ces approches tendent à être spécifiques à une tâche avec une performance globale limitée. Pour rechercher une solution plus générale, cet article se concentre sur un cas plus large de problèmes de raisonnement qui sont calculables, c'est-à-dire des problèmes que des algorithmes peuvent résoudre et qui peuvent donc être résolus par la machine de Turing. Dans cette perspective, cet article propose l'apprentissage par imitation de la machine de Turing (TAIL) pour améliorer la capacité de généralisation en longueur des LLM. TAIL synthétise des données de chaînes de pensée (CoT) qui imitent le processus d'exécution d'une machine de Turing par des programmes informatiques, ce qui étend linéairement les étapes de raisonnement en états atomiques pour atténuer l'apprentissage par raccourci et introduit un mécanisme explicite de récupération de mémoire pour réduire les difficultés d'accès dynamique et à longue portée aux données dans les opérations élémentaires. Pour valider la fiabilité et l'universalité de TAIL, nous construisons un ensemble de données synthétiques complexe couvrant 8 classes d'algorithmes et 18 tâches. Sans fioritures, TAIL améliore significativement la capacité de généralisation en longueur ainsi que la performance de Qwen2.5-7B sur diverses tâches en utilisant uniquement des données synthétiques, surpassant les méthodes précédentes et DeepSeek-R1. Les résultats expérimentaux révèlent que les concepts clés de la machine de Turing, plutôt que les styles de pensée, sont indispensables à TAIL pour la généralisation en longueur, à travers lesquels le modèle exhibe des comportements de lecture et d'écriture cohérents avec les propriétés de la machine de Turing dans ses couches d'attention. Ce travail ouvre une voie prometteuse pour les futures recherches sur l'apprentissage du raisonnement des LLM à partir de données synthétiques.

English

Length generalization, the ability to solve problems of longer sequences than those observed during training, poses a core challenge of Transformer-based large language models (LLM). Although existing studies have predominantly focused on data-driven approaches for arithmetic operations and symbolic manipulation tasks, these approaches tend to be task-specific with limited overall performance. To pursue a more general solution, this paper focuses on a broader case of reasoning problems that are computable, i.e., problems that algorithms can solve, thus can be solved by the Turing Machine. From this perspective, this paper proposes Turing MAchine Imitation Learning (TAIL) to improve the length generalization ability of LLMs. TAIL synthesizes chain-of-thoughts (CoT) data that imitate the execution process of a Turing Machine by computer programs, which linearly expands the reasoning steps into atomic states to alleviate shortcut learning and explicit memory fetch mechanism to reduce the difficulties of dynamic and long-range data access in elementary operations. To validate the reliability and universality of TAIL, we construct a challenging synthetic dataset covering 8 classes of algorithms and 18 tasks. Without bells and whistles, TAIL significantly improves the length generalization ability as well as the performance of Qwen2.5-7B on various tasks using only synthetic data, surpassing previous methods and DeepSeek-R1. The experimental results reveal that the key concepts in the Turing Machine, instead of the thinking styles, are indispensable for TAIL for length generalization, through which the model exhibits read-and-write behaviors consistent with the properties of the Turing Machine in their attention layers. This work provides a promising direction for future research in the learning of LLM reasoning from synthetic data.

Le Jeu de l'Imitation : L'Imitateur de Machine de Turing est Généralisable en Longueur Raisonneur

The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner

papers.abstract

Support