ALPINE: 言語モデルにおける自己回帰学習の計画能力の解明
ALPINE: Unveiling the Planning Capability of Autoregressive Learning in Language Models
May 15, 2024
著者: Siwei Wang, Yifei Shen, Shi Feng, Haoran Sun, Shang-Hua Teng, Wei Chen
cs.AI
要旨
本論文では、「Autoregressive Learning for Planning In NEtworks(ネットワークにおける計画のための自己回帰学習)」を意味するProject ALPINEの研究成果を紹介する。Project ALPINEは、Transformerベースの言語モデルが自己回帰学習メカニズムを通じて計画能力を発達させる過程について理論的な調査を開始し、その計画能力における潜在的な制限を特定することを目的としている。我々は、計画をネットワーク経路探索タスクとして抽象化し、指定された始点ノードから目標ノードまでの有効な経路を生成することを目的とする。表現力の観点から、Transformerが隣接行列と到達可能性行列をその重みに埋め込むことで経路探索を実行可能であることを示す。Transformerの勾配ベースの学習ダイナミクスに関する理論的分析により、Transformerが隣接行列と限定的な形式の到達可能性行列の両方を学習可能であることが明らかとなった。これらの理論的洞察は実験によって検証され、Transformerが実際に隣接行列と不完全な到達可能性行列を学習することが確認され、理論的分析で予測された結果と一致した。さらに、現実世界の計画ベンチマークであるBlocksworldに我々の手法を適用した場合も、観察結果は一貫していた。我々の理論的および実証的分析は、Transformerの経路探索における潜在的な制限をさらに明らかにした:それは推移性を通じて到達可能性関係を識別することができず、したがって経路の連結が必要な場合に失敗する可能性がある。要約すると、我々の研究結果は、自己回帰学習の内部メカニズムがネットワークにおける計画を可能にする方法について新たな光を当てるものである。この研究は、他の関連領域における一般的な計画能力の理解に貢献する可能性がある。
English
In this paper, we present the findings of our Project ALPINE which stands for
``Autoregressive Learning for Planning In NEtworks." Project ALPINE initiates a
theoretical investigation into the development of planning capabilities in
Transformer-based language models through their autoregressive learning
mechanisms, aiming to identify any potential limitations in their planning
abilities. We abstract planning as a network path-finding task where the
objective is to generate a valid path from a specified source node to a
designated target node. In terms of expressiveness, we show that the
Transformer is capable of executing path-finding by embedding the adjacency and
reachability matrices within its weights. Our theoretical analysis of the
gradient-based learning dynamic of the Transformer reveals that the Transformer
is capable of learning both the adjacency matrix and a limited form of the
reachability matrix. These theoretical insights are then validated through
experiments, which demonstrate that the Transformer indeed learns the adjacency
matrix and an incomplete reachability matrix, which aligns with the predictions
made in our theoretical analysis. Additionally, when applying our methodology
to a real-world planning benchmark, called Blocksworld, our observations remain
consistent. Our theoretical and empirical analyses further unveil a potential
limitation of Transformer in path-finding: it cannot identify reachability
relationships through transitivity, and thus would fail when path concatenation
is needed to generate a path. In summary, our findings shed new light on how
the internal mechanisms of autoregressive learning enable planning in networks.
This study may contribute to our understanding of the general planning
capabilities in other related domains.Summary
AI-Generated Summary