模倣ゲーム:チューリング機械模倣者は長さ一般化可能な推論器である
The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner
July 17, 2025
著者: Zhouqi Hua, Wenwei Zhang, Chengqi Lyu, Yuzhe Gu, Songyang Gao, Kuikun Liu, Kai Chen
cs.AI
要旨
長さ一般化、すなわち訓練中に観測されたよりも長い系列の問題を解決する能力は、Transformerベースの大規模言語モデル(LLM)にとって中核的な課題となっています。既存の研究は主に算術演算や記号操作タスクに対するデータ駆動型アプローチに焦点を当ててきましたが、これらのアプローチはタスク固有であり、全体的な性能が限られています。より一般的な解決策を追求するため、本論文は計算可能な推論問題、すなわちアルゴリズムによって解決可能な問題、つまりチューリングマシンによって解決可能な問題に焦点を当てます。この観点から、本論文はLLMの長さ一般化能力を向上させるためにチューリングマシン模倣学習(TAIL)を提案します。TAILは、コンピュータプログラムによってチューリングマシンの実行プロセスを模倣する連鎖思考(CoT)データを合成し、推論ステップを原子状態に線形に拡張することでショートカット学習を軽減し、動的かつ長距離のデータアクセスの困難を緩和するための明示的なメモリフェッチメカニズムを提供します。TAILの信頼性と普遍性を検証するため、8つのアルゴリズムクラスと18のタスクをカバーする挑戦的な合成データセットを構築しました。余計な装飾なしに、TAILは合成データのみを使用してQwen2.5-7Bの長さ一般化能力と各種タスクにおける性能を大幅に向上させ、従来の手法やDeepSeek-R1を凌駕しました。実験結果は、チューリングマシンのキーコンセプトが、思考スタイルではなく、TAILの長さ一般化に不可欠であることを明らかにし、モデルがその注意層においてチューリングマシンの特性と一致する読み書きの振る舞いを示すことを示しています。この研究は、合成データからのLLM推論学習における将来の研究に有望な方向性を提供します。
English
Length generalization, the ability to solve problems of longer sequences than
those observed during training, poses a core challenge of Transformer-based
large language models (LLM). Although existing studies have predominantly
focused on data-driven approaches for arithmetic operations and symbolic
manipulation tasks, these approaches tend to be task-specific with limited
overall performance. To pursue a more general solution, this paper focuses on a
broader case of reasoning problems that are computable, i.e., problems that
algorithms can solve, thus can be solved by the Turing Machine. From this
perspective, this paper proposes Turing MAchine Imitation Learning (TAIL) to
improve the length generalization ability of LLMs. TAIL synthesizes
chain-of-thoughts (CoT) data that imitate the execution process of a Turing
Machine by computer programs, which linearly expands the reasoning steps into
atomic states to alleviate shortcut learning and explicit memory fetch
mechanism to reduce the difficulties of dynamic and long-range data access in
elementary operations. To validate the reliability and universality of TAIL, we
construct a challenging synthetic dataset covering 8 classes of algorithms and
18 tasks. Without bells and whistles, TAIL significantly improves the length
generalization ability as well as the performance of Qwen2.5-7B on various
tasks using only synthetic data, surpassing previous methods and DeepSeek-R1.
The experimental results reveal that the key concepts in the Turing Machine,
instead of the thinking styles, are indispensable for TAIL for length
generalization, through which the model exhibits read-and-write behaviors
consistent with the properties of the Turing Machine in their attention layers.
This work provides a promising direction for future research in the learning of
LLM reasoning from synthetic data.