Das Nachahmungsspiel: Turing-Maschinen-Imitator ist längenverallgemeinerbarer Denker

papers.abstract

Längengeneralisierung, die Fähigkeit, Probleme mit längeren Sequenzen zu lösen als diejenigen, die während des Trainings beobachtet wurden, stellt eine zentrale Herausforderung für Transformer-basierte große Sprachmodelle (LLMs) dar. Obwohl sich bestehende Studien vorwiegend auf datengetriebene Ansätze für arithmetische Operationen und symbolische Manipulationsaufgaben konzentriert haben, neigen diese Ansätze dazu, aufgabenspezifisch zu sein und bieten nur begrenzte Gesamtleistung. Um eine allgemeinere Lösung zu verfolgen, konzentriert sich dieses Papier auf einen breiteren Fall von Problemen, die berechenbar sind, d.h. Probleme, die Algorithmen lösen können und somit von der Turing-Maschine gelöst werden können. Aus dieser Perspektive schlägt dieses Papier Turing-Maschinen-Nachahmungslernen (TAIL) vor, um die Längengeneralisierungsfähigkeit von LLMs zu verbessern. TAIL synthetisiert Chain-of-Thoughts (CoT)-Daten, die den Ausführungsprozess einer Turing-Maschine durch Computerprogramme nachahmen, indem es die Denkschritte linear in atomare Zustände erweitert, um Kurzschlusslernen zu mildern und einen expliziten Speicherzugriffsmechanismus bereitzustellen, um die Schwierigkeiten des dynamischen und langreichweitigen Datenzugriffs bei elementaren Operationen zu reduzieren. Um die Zuverlässigkeit und Universalität von TAIL zu validieren, erstellen wir einen anspruchsvollen synthetischen Datensatz, der 8 Klassen von Algorithmen und 18 Aufgaben abdeckt. Ohne zusätzliche Verfeinerungen verbessert TAIL die Längengeneralisierungsfähigkeit sowie die Leistung von Qwen2.5-7B bei verschiedenen Aufgaben signifikant, wobei nur synthetische Daten verwendet werden, und übertrifft dabei frühere Methoden und DeepSeek-R1. Die experimentellen Ergebnisse zeigen, dass die Schlüsselkonzepte der Turing-Maschine, anstelle der Denkstile, für TAIL zur Längengeneralisierung unverzichtbar sind, wodurch das Modell in seinen Aufmerksamkeitsschichten Lese- und Schreibverhalten zeigt, das mit den Eigenschaften der Turing-Maschine übereinstimmt. Diese Arbeit bietet eine vielversprechende Richtung für zukünftige Forschungen zum Erlernen des LLM-Schlussfolgerns aus synthetischen Daten.

English

Length generalization, the ability to solve problems of longer sequences than those observed during training, poses a core challenge of Transformer-based large language models (LLM). Although existing studies have predominantly focused on data-driven approaches for arithmetic operations and symbolic manipulation tasks, these approaches tend to be task-specific with limited overall performance. To pursue a more general solution, this paper focuses on a broader case of reasoning problems that are computable, i.e., problems that algorithms can solve, thus can be solved by the Turing Machine. From this perspective, this paper proposes Turing MAchine Imitation Learning (TAIL) to improve the length generalization ability of LLMs. TAIL synthesizes chain-of-thoughts (CoT) data that imitate the execution process of a Turing Machine by computer programs, which linearly expands the reasoning steps into atomic states to alleviate shortcut learning and explicit memory fetch mechanism to reduce the difficulties of dynamic and long-range data access in elementary operations. To validate the reliability and universality of TAIL, we construct a challenging synthetic dataset covering 8 classes of algorithms and 18 tasks. Without bells and whistles, TAIL significantly improves the length generalization ability as well as the performance of Qwen2.5-7B on various tasks using only synthetic data, surpassing previous methods and DeepSeek-R1. The experimental results reveal that the key concepts in the Turing Machine, instead of the thinking styles, are indispensable for TAIL for length generalization, through which the model exhibits read-and-write behaviors consistent with the properties of the Turing Machine in their attention layers. This work provides a promising direction for future research in the learning of LLM reasoning from synthetic data.

Das Nachahmungsspiel: Turing-Maschinen-Imitator ist längenverallgemeinerbarer Denker

The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner

papers.abstract

Support