대형 언어 모델은 잠재적으로 다중 홉 추론을 수행하는가?
Do Large Language Models Latently Perform Multi-Hop Reasoning?
February 26, 2024
저자: Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel
cs.AI
초록
우리는 대형 언어 모델(LLMs)이 "‘Superstition’의 가수의 어머니는"과 같은 복잡한 프롬프트에 대해 잠재적으로 다중 홉 추론을 수행하는지 연구한다. 우리는 LLM이 (1) 잠재적으로 "‘Superstition’의 가수"를 스티비 원더라는 브리지 엔티티로 식별하고, (2) 스티비 원더의 어머니에 대한 지식을 활용하여 프롬프트를 완성하는 잠재적 추론 경로의 증거를 탐색한다. 우리는 이 두 홉을 개별적으로 분석하고, 이들의 동시 발생을 잠재적 다중 홉 추론의 지표로 간주한다. 첫 번째 홉에 대해, 프롬프트를 변경하여 브리지 엔티티를 간접적으로 언급하는 것이 다른 엔티티 대신 브리지 엔티티의 내부 회상을 증가시키는지 테스트한다. 두 번째 홉에 대해, 이러한 회상의 증가가 LLM이 브리지 엔티티에 대해 알고 있는 지식을 더 잘 활용하도록 하는지 테스트한다. 우리는 특정 관계 유형의 프롬프트에 대해 잠재적 다중 홉 추론의 강력한 증거를 발견했으며, 이 추론 경로가 80% 이상의 프롬프트에서 사용되었다. 그러나 이러한 활용은 매우 문맥에 의존적이며, 다양한 유형의 프롬프트에 따라 달라진다. 또한 평균적으로, 두 번째 홉과 전체 다중 홉 순회에 대한 증거는 상당히 중간 수준이며, 첫 번째 홉에 대해서만 상당한 수준이다. 더욱이, 우리는 첫 번째 추론 홉에 대해 모델 크기가 증가함에 따라 명확한 확장 경향을 발견했지만, 두 번째 홉에 대해서는 그러한 경향이 없었다. 우리의 실험 결과는 LLM의 미래 개발과 응용에 있어 잠재적인 도전과 기회를 시사한다.
English
We study whether Large Language Models (LLMs) latently perform multi-hop
reasoning with complex prompts such as "The mother of the singer of
'Superstition' is". We look for evidence of a latent reasoning pathway where an
LLM (1) latently identifies "the singer of 'Superstition'" as Stevie Wonder,
the bridge entity, and (2) uses its knowledge of Stevie Wonder's mother to
complete the prompt. We analyze these two hops individually and consider their
co-occurrence as indicative of latent multi-hop reasoning. For the first hop,
we test if changing the prompt to indirectly mention the bridge entity instead
of any other entity increases the LLM's internal recall of the bridge entity.
For the second hop, we test if increasing this recall causes the LLM to better
utilize what it knows about the bridge entity. We find strong evidence of
latent multi-hop reasoning for the prompts of certain relation types, with the
reasoning pathway used in more than 80% of the prompts. However, the
utilization is highly contextual, varying across different types of prompts.
Also, on average, the evidence for the second hop and the full multi-hop
traversal is rather moderate and only substantial for the first hop. Moreover,
we find a clear scaling trend with increasing model size for the first hop of
reasoning but not for the second hop. Our experimental findings suggest
potential challenges and opportunities for future development and applications
of LLMs.