Маскирование в многошаговом QA: анализ того, как языковые модели справляются с перестановкой контекста

Аннотация

Многошаговое ответы на вопросы (Multi-hop Question Answering, MHQA) добавляет дополнительные уровни сложности к задаче ответов на вопросы, делая её более трудной. Когда языковые модели (Language Models, LMs) получают несколько результатов поиска, они должны не только извлекать релевантную информацию, но и применять многошаговое рассуждение (multi-hop reasoning) между источниками информации. Хотя LMs хорошо справляются с традиционными задачами ответов на вопросы, причинная маска (causal mask) может ограничивать их способность рассуждать в сложных контекстах. В данной статье мы исследуем, как LMs реагируют на многошаговые вопросы, переставляя результаты поиска (извлечённые документы) в различных конфигурациях. Наше исследование выявило следующие интересные результаты: 1) Модели с архитектурой "кодировщик-декодировщик" (encoder-decoder), такие как модели семейства Flan-T5, в целом превосходят LMs с декодером (decoder-only) в задачах MHQA, несмотря на значительно меньший размер; 2) изменение порядка "золотых" документов (gold documents) выявляет различные тенденции как в моделях Flan T5, так и в тонко настроенных моделях с декодером, причём оптимальная производительность наблюдается, когда порядок документов соответствует порядку цепочки рассуждений; 3) улучшение моделей с декодером за счёт добавления двунаправленного внимания (bi-directional attention) путём модификации причинной маски может эффективно повысить их итоговую производительность. Помимо этого, мы проводим тщательное исследование распределения весов внимания (attention weights) LMs в контексте MHQA. Наши эксперименты показывают, что веса внимания имеют тенденцию достигать более высоких значений, когда полученный ответ является правильным. Мы используем это наблюдение для эвристического улучшения производительности LMs в данной задаче. Наш код доступен по адресу: https://github.com/hwy9855/MultiHopQA-Reasoning.

English

Multi-hop Question Answering (MHQA) adds layers of complexity to question answering, making it more challenging. When Language Models (LMs) are prompted with multiple search results, they are tasked not only with retrieving relevant information but also employing multi-hop reasoning across the information sources. Although LMs perform well on traditional question-answering tasks, the causal mask can hinder their capacity to reason across complex contexts. In this paper, we explore how LMs respond to multi-hop questions by permuting search results (retrieved documents) under various configurations. Our study reveals interesting findings as follows: 1) Encoder-decoder models, such as the ones in the Flan-T5 family, generally outperform causal decoder-only LMs in MHQA tasks, despite being significantly smaller in size; 2) altering the order of gold documents reveals distinct trends in both Flan T5 models and fine-tuned decoder-only models, with optimal performance observed when the document order aligns with the reasoning chain order; 3) enhancing causal decoder-only models with bi-directional attention by modifying the causal mask can effectively boost their end performance. In addition to the above, we conduct a thorough investigation of the distribution of LM attention weights in the context of MHQA. Our experiments reveal that attention weights tend to peak at higher values when the resulting answer is correct. We leverage this finding to heuristically improve LMs' performance on this task. Our code is publicly available at https://github.com/hwy9855/MultiHopQA-Reasoning.

Маскирование в многошаговом QA: анализ того, как языковые модели справляются с перестановкой контекста

Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation

Аннотация

Support