Выполняют ли крупные языковые модели скрытое многошаговое рассуждение?
Do Large Language Models Latently Perform Multi-Hop Reasoning?
February 26, 2024
Авторы: Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel
cs.AI
Аннотация
Мы исследуем, выполняют ли крупные языковые модели (LLM) скрытое многошаговое рассуждение при работе со сложными запросами, такими как "Мать исполнителя песни 'Superstition' — это". Мы ищем доказательства скрытого пути рассуждения, в котором LLM (1) скрыто идентифицирует "исполнителя песни 'Superstition'" как Стиви Уандера, промежуточную сущность, и (2) использует свои знания о матери Стиви Уандера для завершения запроса. Мы анализируем эти два шага по отдельности и рассматриваем их совместное появление как показатель скрытого многошагового рассуждения. Для первого шага мы проверяем, увеличивает ли изменение запроса, чтобы косвенно упомянуть промежуточную сущность вместо любой другой сущности, внутреннее воспроизведение этой сущности в LLM. Для второго шага мы проверяем, приводит ли увеличение этого воспроизведения к более эффективному использованию знаний LLM о промежуточной сущности. Мы находим убедительные доказательства скрытого многошагового рассуждения для запросов определённых типов отношений, причём путь рассуждения используется более чем в 80% запросов. Однако использование знаний сильно зависит от контекста и варьируется для разных типов запросов. Кроме того, в среднем доказательства для второго шага и полного многошагового прохода довольно умеренные и значительны только для первого шага. Более того, мы обнаруживаем явную тенденцию масштабирования с увеличением размера модели для первого шага рассуждения, но не для второго. Наши экспериментальные результаты указывают на потенциальные вызовы и возможности для будущего развития и применения LLM.
English
We study whether Large Language Models (LLMs) latently perform multi-hop
reasoning with complex prompts such as "The mother of the singer of
'Superstition' is". We look for evidence of a latent reasoning pathway where an
LLM (1) latently identifies "the singer of 'Superstition'" as Stevie Wonder,
the bridge entity, and (2) uses its knowledge of Stevie Wonder's mother to
complete the prompt. We analyze these two hops individually and consider their
co-occurrence as indicative of latent multi-hop reasoning. For the first hop,
we test if changing the prompt to indirectly mention the bridge entity instead
of any other entity increases the LLM's internal recall of the bridge entity.
For the second hop, we test if increasing this recall causes the LLM to better
utilize what it knows about the bridge entity. We find strong evidence of
latent multi-hop reasoning for the prompts of certain relation types, with the
reasoning pathway used in more than 80% of the prompts. However, the
utilization is highly contextual, varying across different types of prompts.
Also, on average, the evidence for the second hop and the full multi-hop
traversal is rather moderate and only substantial for the first hop. Moreover,
we find a clear scaling trend with increasing model size for the first hop of
reasoning but not for the second hop. Our experimental findings suggest
potential challenges and opportunities for future development and applications
of LLMs.