Маскирование в многошаговом QA: анализ того, как языковые модели справляются с перестановкой контекста
Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation
May 16, 2025
Авторы: Wenyu Huang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan
cs.AI
Аннотация
Многошаговое ответы на вопросы (Multi-hop Question Answering, MHQA) добавляет дополнительные уровни сложности к задаче ответов на вопросы, делая её более трудной. Когда языковые модели (Language Models, LMs) получают несколько результатов поиска, они должны не только извлекать релевантную информацию, но и применять многошаговое рассуждение (multi-hop reasoning) между источниками информации. Хотя LMs хорошо справляются с традиционными задачами ответов на вопросы, причинная маска (causal mask) может ограничивать их способность рассуждать в сложных контекстах. В данной статье мы исследуем, как LMs реагируют на многошаговые вопросы, переставляя результаты поиска (извлечённые документы) в различных конфигурациях. Наше исследование выявило следующие интересные результаты: 1) Модели с архитектурой "кодировщик-декодировщик" (encoder-decoder), такие как модели семейства Flan-T5, в целом превосходят LMs с декодером (decoder-only) в задачах MHQA, несмотря на значительно меньший размер; 2) изменение порядка "золотых" документов (gold documents) выявляет различные тенденции как в моделях Flan T5, так и в тонко настроенных моделях с декодером, причём оптимальная производительность наблюдается, когда порядок документов соответствует порядку цепочки рассуждений; 3) улучшение моделей с декодером за счёт добавления двунаправленного внимания (bi-directional attention) путём модификации причинной маски может эффективно повысить их итоговую производительность. Помимо этого, мы проводим тщательное исследование распределения весов внимания (attention weights) LMs в контексте MHQA. Наши эксперименты показывают, что веса внимания имеют тенденцию достигать более высоких значений, когда полученный ответ является правильным. Мы используем это наблюдение для эвристического улучшения производительности LMs в данной задаче. Наш код доступен по адресу: https://github.com/hwy9855/MultiHopQA-Reasoning.
English
Multi-hop Question Answering (MHQA) adds layers of complexity to question
answering, making it more challenging. When Language Models (LMs) are prompted
with multiple search results, they are tasked not only with retrieving relevant
information but also employing multi-hop reasoning across the information
sources. Although LMs perform well on traditional question-answering tasks, the
causal mask can hinder their capacity to reason across complex contexts. In
this paper, we explore how LMs respond to multi-hop questions by permuting
search results (retrieved documents) under various configurations. Our study
reveals interesting findings as follows: 1) Encoder-decoder models, such as the
ones in the Flan-T5 family, generally outperform causal decoder-only LMs in
MHQA tasks, despite being significantly smaller in size; 2) altering the order
of gold documents reveals distinct trends in both Flan T5 models and fine-tuned
decoder-only models, with optimal performance observed when the document order
aligns with the reasoning chain order; 3) enhancing causal decoder-only models
with bi-directional attention by modifying the causal mask can effectively
boost their end performance. In addition to the above, we conduct a thorough
investigation of the distribution of LM attention weights in the context of
MHQA. Our experiments reveal that attention weights tend to peak at higher
values when the resulting answer is correct. We leverage this finding to
heuristically improve LMs' performance on this task. Our code is publicly
available at https://github.com/hwy9855/MultiHopQA-Reasoning.Summary
AI-Generated Summary