大規模言語モデルは潜在的にマルチホップ推論を行っているのか?
Do Large Language Models Latently Perform Multi-Hop Reasoning?
February 26, 2024
著者: Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel
cs.AI
要旨
大規模言語モデル(LLM)が複雑なプロンプト(例:「『Superstition』の歌手の母親は」)に対して潜在的にマルチホップ推論を行っているかどうかを研究する。我々は、LLMが(1)潜在的に「『Superstition』の歌手」をStevie Wonder(ブリッジエンティティ)として特定し、(2)Stevie Wonderの母親に関する知識を用いてプロンプトを完成させるという潜在的な推論経路の証拠を探る。これら2つのホップを個別に分析し、それらの共起を潜在的なマルチホップ推論の指標と見なす。第1ホップについては、プロンプトを変更してブリッジエンティティを間接的に言及することで、他のエンティティではなくブリッジエンティティの内部想起が増加するかどうかをテストする。第2ホップについては、この想起が増加することで、LLMがブリッジエンティティに関する知識をより良く活用するかどうかをテストする。特定の関係タイプのプロンプトに対しては、80%以上のプロンプトで推論経路が使用されるという強い証拠が見つかった。しかし、その活用は非常に文脈依存であり、異なるタイプのプロンプトによって大きく異なる。また、平均的に見ると、第2ホップおよび完全なマルチホップ横断の証拠はやや控えめであり、第1ホップに対してのみ顕著である。さらに、推論の第1ホップについてはモデルサイズの増加に伴う明確なスケーリング傾向が見られるが、第2ホップについてはその傾向が見られない。我々の実験結果は、LLMの将来の開発と応用における潜在的な課題と機会を示唆している。
English
We study whether Large Language Models (LLMs) latently perform multi-hop
reasoning with complex prompts such as "The mother of the singer of
'Superstition' is". We look for evidence of a latent reasoning pathway where an
LLM (1) latently identifies "the singer of 'Superstition'" as Stevie Wonder,
the bridge entity, and (2) uses its knowledge of Stevie Wonder's mother to
complete the prompt. We analyze these two hops individually and consider their
co-occurrence as indicative of latent multi-hop reasoning. For the first hop,
we test if changing the prompt to indirectly mention the bridge entity instead
of any other entity increases the LLM's internal recall of the bridge entity.
For the second hop, we test if increasing this recall causes the LLM to better
utilize what it knows about the bridge entity. We find strong evidence of
latent multi-hop reasoning for the prompts of certain relation types, with the
reasoning pathway used in more than 80% of the prompts. However, the
utilization is highly contextual, varying across different types of prompts.
Also, on average, the evidence for the second hop and the full multi-hop
traversal is rather moderate and only substantial for the first hop. Moreover,
we find a clear scaling trend with increasing model size for the first hop of
reasoning but not for the second hop. Our experimental findings suggest
potential challenges and opportunities for future development and applications
of LLMs.