ChatPaper.aiChatPaper

Führen große Sprachmodelle latent mehrschrittiges Reasoning durch?

Do Large Language Models Latently Perform Multi-Hop Reasoning?

February 26, 2024
Autoren: Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel
cs.AI

Zusammenfassung

Wir untersuchen, ob Large Language Models (LLMs) latent mehrstufiges Schlussfolgern mit komplexen Eingabeaufforderungen wie „Die Mutter des Sängers von ‚Superstition‘ ist“ durchführen. Wir suchen nach Hinweisen auf einen latenten Schlussfolgerungspfad, bei dem ein LLM (1) latent „den Sänger von ‚Superstition‘“ als Stevie Wonder, die Brückenentität, identifiziert und (2) sein Wissen über Stevie Wonders Mutter nutzt, um die Eingabeaufforderung zu vervollständigen. Wir analysieren diese beiden Schritte einzeln und betrachten ihr gemeinsames Auftreten als Indikator für latentes mehrstufiges Schlussfolgern. Für den ersten Schritt testen wir, ob eine Änderung der Eingabeaufforderung, um die Brückenentität indirekt zu erwähnen, anstatt einer anderen Entität, die interne Erinnerung des LLMs an die Brückenentität erhöht. Für den zweiten Schritt testen wir, ob eine Steigerung dieser Erinnerung dazu führt, dass das LLM besser nutzt, was es über die Brückenentität weiß. Wir finden starke Hinweise auf latentes mehrstufiges Schlussfolgern bei Eingabeaufforderungen bestimmter Relationstypen, wobei der Schlussfolgerungspfad in mehr als 80 % der Eingabeaufforderungen verwendet wird. Die Nutzung ist jedoch stark kontextabhängig und variiert bei verschiedenen Arten von Eingabeaufforderungen. Im Durchschnitt sind die Hinweise für den zweiten Schritt und die vollständige mehrstufige Durchquerung eher moderat und nur für den ersten Schritt substanziell. Darüber hinaus finden wir einen klaren Skalierungstrend mit zunehmender Modellgröße für den ersten Schritt des Schlussfolgerns, jedoch nicht für den zweiten Schritt. Unsere experimentellen Ergebnisse deuten auf potenzielle Herausforderungen und Chancen für die zukünftige Entwicklung und Anwendung von LLMs hin.
English
We study whether Large Language Models (LLMs) latently perform multi-hop reasoning with complex prompts such as "The mother of the singer of 'Superstition' is". We look for evidence of a latent reasoning pathway where an LLM (1) latently identifies "the singer of 'Superstition'" as Stevie Wonder, the bridge entity, and (2) uses its knowledge of Stevie Wonder's mother to complete the prompt. We analyze these two hops individually and consider their co-occurrence as indicative of latent multi-hop reasoning. For the first hop, we test if changing the prompt to indirectly mention the bridge entity instead of any other entity increases the LLM's internal recall of the bridge entity. For the second hop, we test if increasing this recall causes the LLM to better utilize what it knows about the bridge entity. We find strong evidence of latent multi-hop reasoning for the prompts of certain relation types, with the reasoning pathway used in more than 80% of the prompts. However, the utilization is highly contextual, varying across different types of prompts. Also, on average, the evidence for the second hop and the full multi-hop traversal is rather moderate and only substantial for the first hop. Moreover, we find a clear scaling trend with increasing model size for the first hop of reasoning but not for the second hop. Our experimental findings suggest potential challenges and opportunities for future development and applications of LLMs.
PDF301December 15, 2024