Les grands modèles de langage effectuent-ils implicitement un raisonnement à sauts multiples ?
Do Large Language Models Latently Perform Multi-Hop Reasoning?
February 26, 2024
Auteurs: Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel
cs.AI
Résumé
Nous étudions si les modèles de langage à grande échelle (LLMs) effectuent de manière latente un raisonnement multi-étapes avec des prompts complexes tels que "La mère du chanteur de 'Superstition' est". Nous recherchons des preuves d'un chemin de raisonnement latent où un LLM (1) identifie de manière latente "le chanteur de 'Superstition'" comme étant Stevie Wonder, l'entité pont, et (2) utilise sa connaissance de la mère de Stevie Wonder pour compléter le prompt. Nous analysons ces deux étapes individuellement et considérons leur co-occurrence comme indicative d'un raisonnement multi-étapes latent. Pour la première étape, nous testons si le fait de modifier le prompt pour mentionner indirectement l'entité pont plutôt qu'une autre entité augmente le rappel interne de l'entité pont par le LLM. Pour la deuxième étape, nous testons si l'augmentation de ce rappel améliore l'utilisation par le LLM de ce qu'il sait sur l'entité pont. Nous trouvons des preuves solides d'un raisonnement multi-étapes latent pour les prompts de certains types de relations, avec le chemin de raisonnement utilisé dans plus de 80% des prompts. Cependant, l'utilisation est hautement contextuelle, variant selon les différents types de prompts. De plus, en moyenne, les preuves pour la deuxième étape et le parcours complet multi-étapes sont plutôt modérées et seulement substantielles pour la première étape. Par ailleurs, nous observons une tendance claire de mise à l'échelle avec l'augmentation de la taille du modèle pour la première étape du raisonnement, mais pas pour la deuxième étape. Nos résultats expérimentaux suggèrent des défis et des opportunités potentiels pour le développement et les applications futures des LLMs.
English
We study whether Large Language Models (LLMs) latently perform multi-hop
reasoning with complex prompts such as "The mother of the singer of
'Superstition' is". We look for evidence of a latent reasoning pathway where an
LLM (1) latently identifies "the singer of 'Superstition'" as Stevie Wonder,
the bridge entity, and (2) uses its knowledge of Stevie Wonder's mother to
complete the prompt. We analyze these two hops individually and consider their
co-occurrence as indicative of latent multi-hop reasoning. For the first hop,
we test if changing the prompt to indirectly mention the bridge entity instead
of any other entity increases the LLM's internal recall of the bridge entity.
For the second hop, we test if increasing this recall causes the LLM to better
utilize what it knows about the bridge entity. We find strong evidence of
latent multi-hop reasoning for the prompts of certain relation types, with the
reasoning pathway used in more than 80% of the prompts. However, the
utilization is highly contextual, varying across different types of prompts.
Also, on average, the evidence for the second hop and the full multi-hop
traversal is rather moderate and only substantial for the first hop. Moreover,
we find a clear scaling trend with increasing model size for the first hop of
reasoning but not for the second hop. Our experimental findings suggest
potential challenges and opportunities for future development and applications
of LLMs.