Voeren Large Language Models latent multi-hop redeneren uit?
Do Large Language Models Latently Perform Multi-Hop Reasoning?
February 26, 2024
Auteurs: Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel
cs.AI
Samenvatting
We onderzoeken of Large Language Models (LLMs) latent multi-hop redenering uitvoeren bij complexe prompts zoals "De moeder van de zanger van 'Superstition' is". We zoeken naar bewijs van een latent redeneerpad waarbij een LLM (1) latent identificeert dat "de zanger van 'Superstition'" Stevie Wonder is, de brugentiteit, en (2) zijn kennis over de moeder van Stevie Wonder gebruikt om de prompt te voltooien. We analyseren deze twee hops afzonderlijk en beschouwen hun gelijktijdige optreden als een indicatie van latent multi-hop redeneren. Voor de eerste hop testen we of het wijzigen van de prompt om indirect naar de brugentiteit te verwijzen in plaats van naar een andere entiteit, de interne herinnering van de LLM aan de brugentiteit verhoogt. Voor de tweede hop testen we of het vergroten van deze herinnering ervoor zorgt dat de LLM beter gebruikmaakt van wat hij weet over de brugentiteit. We vinden sterk bewijs van latent multi-hop redeneren voor prompts van bepaalde relatietypes, waarbij het redeneerpad in meer dan 80% van de prompts wordt gebruikt. Het gebruik is echter zeer contextafhankelijk en varieert tussen verschillende soorten prompts. Gemiddeld is het bewijs voor de tweede hop en de volledige multi-hop traversering eerder matig en alleen substantieel voor de eerste hop. Bovendien vinden we een duidelijke schaalbaarheidstrend met toenemende modelgrootte voor de eerste hop van het redeneren, maar niet voor de tweede hop. Onze experimentele bevindingen suggereren mogelijke uitdagingen en kansen voor toekomstige ontwikkeling en toepassingen van LLMs.
English
We study whether Large Language Models (LLMs) latently perform multi-hop
reasoning with complex prompts such as "The mother of the singer of
'Superstition' is". We look for evidence of a latent reasoning pathway where an
LLM (1) latently identifies "the singer of 'Superstition'" as Stevie Wonder,
the bridge entity, and (2) uses its knowledge of Stevie Wonder's mother to
complete the prompt. We analyze these two hops individually and consider their
co-occurrence as indicative of latent multi-hop reasoning. For the first hop,
we test if changing the prompt to indirectly mention the bridge entity instead
of any other entity increases the LLM's internal recall of the bridge entity.
For the second hop, we test if increasing this recall causes the LLM to better
utilize what it knows about the bridge entity. We find strong evidence of
latent multi-hop reasoning for the prompts of certain relation types, with the
reasoning pathway used in more than 80% of the prompts. However, the
utilization is highly contextual, varying across different types of prompts.
Also, on average, the evidence for the second hop and the full multi-hop
traversal is rather moderate and only substantial for the first hop. Moreover,
we find a clear scaling trend with increasing model size for the first hop of
reasoning but not for the second hop. Our experimental findings suggest
potential challenges and opportunities for future development and applications
of LLMs.