ChatPaper.aiChatPaper

¿Realizan los Modelos de Lenguaje de Gran Escala Razonamiento de Múltiples Saltos de Manera Latente?

Do Large Language Models Latently Perform Multi-Hop Reasoning?

February 26, 2024
Autores: Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel
cs.AI

Resumen

Estudiamos si los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) realizan de manera latente razonamiento de múltiples saltos con indicaciones complejas como "La madre del cantante de 'Superstition' es". Buscamos evidencia de una vía de razonamiento latente en la que un LLM (1) identifica de manera latente "el cantante de 'Superstition'" como Stevie Wonder, la entidad puente, y (2) utiliza su conocimiento sobre la madre de Stevie Wonder para completar la indicación. Analizamos estos dos saltos de manera individual y consideramos su co-ocurrencia como indicativa de razonamiento de múltiples saltos latente. Para el primer salto, probamos si modificar la indicación para mencionar indirectamente la entidad puente en lugar de cualquier otra entidad aumenta el recuerdo interno del LLM sobre la entidad puente. Para el segundo salto, evaluamos si aumentar este recuerdo hace que el LLM utilice mejor lo que sabe sobre la entidad puente. Encontramos evidencia sólida de razonamiento de múltiples saltos latente para indicaciones de ciertos tipos de relaciones, con la vía de razonamiento utilizada en más del 80% de las indicaciones. Sin embargo, la utilización es altamente contextual, variando entre diferentes tipos de indicaciones. Además, en promedio, la evidencia para el segundo salto y el recorrido completo de múltiples saltos es más bien moderada y solo sustancial para el primer salto. Asimismo, encontramos una clara tendencia de escalamiento con el aumento del tamaño del modelo para el primer salto del razonamiento, pero no para el segundo salto. Nuestros hallazgos experimentales sugieren desafíos y oportunidades potenciales para el desarrollo y aplicaciones futuras de los LLMs.
English
We study whether Large Language Models (LLMs) latently perform multi-hop reasoning with complex prompts such as "The mother of the singer of 'Superstition' is". We look for evidence of a latent reasoning pathway where an LLM (1) latently identifies "the singer of 'Superstition'" as Stevie Wonder, the bridge entity, and (2) uses its knowledge of Stevie Wonder's mother to complete the prompt. We analyze these two hops individually and consider their co-occurrence as indicative of latent multi-hop reasoning. For the first hop, we test if changing the prompt to indirectly mention the bridge entity instead of any other entity increases the LLM's internal recall of the bridge entity. For the second hop, we test if increasing this recall causes the LLM to better utilize what it knows about the bridge entity. We find strong evidence of latent multi-hop reasoning for the prompts of certain relation types, with the reasoning pathway used in more than 80% of the prompts. However, the utilization is highly contextual, varying across different types of prompts. Also, on average, the evidence for the second hop and the full multi-hop traversal is rather moderate and only substantial for the first hop. Moreover, we find a clear scaling trend with increasing model size for the first hop of reasoning but not for the second hop. Our experimental findings suggest potential challenges and opportunities for future development and applications of LLMs.
PDF301December 15, 2024