Mascheramento nel QA Multi-hop: Un'analisi delle prestazioni dei modelli linguistici con permutazione del contesto
Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation
May 16, 2025
Autori: Wenyu Huang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan
cs.AI
Abstract
Il Question Answering Multi-hop (MHQA) aggiunge livelli di complessità al question answering, rendendolo più impegnativo. Quando i Language Models (LM) vengono sollecitati con più risultati di ricerca, sono chiamati non solo a recuperare informazioni rilevanti, ma anche a impiegare ragionamenti multi-hop attraverso le fonti di informazioni. Sebbene i LM performino bene nei tradizionali compiti di question answering, la maschera causale può ostacolare la loro capacità di ragionare in contesti complessi. In questo articolo, esploriamo come i LM rispondono a domande multi-hop permutando i risultati di ricerca (documenti recuperati) in varie configurazioni. Il nostro studio rivela interessanti risultati come segue: 1) I modelli encoder-decoder, come quelli della famiglia Flan-T5, generalmente superano i LM decoder-only causali nei compiti MHQA, nonostante siano significativamente più piccoli in termini di dimensioni; 2) alterare l'ordine dei documenti gold rivela tendenze distinte sia nei modelli Flan T5 che nei modelli decoder-only fine-tuned, con prestazioni ottimali osservate quando l'ordine dei documenti si allinea con l'ordine della catena di ragionamento; 3) potenziare i modelli decoder-only causali con attenzione bidirezionale modificando la maschera causale può efficacemente migliorare le loro prestazioni finali. Oltre a quanto sopra, conduciamo un'indagine approfondita sulla distribuzione dei pesi di attenzione dei LM nel contesto dell'MHQA. I nostri esperimenti rivelano che i pesi di attenzione tendono a raggiungere picchi più alti quando la risposta risultante è corretta. Sfruttiamo questa scoperta per migliorare euristicamente le prestazioni dei LM su questo compito. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/hwy9855/MultiHopQA-Reasoning.
English
Multi-hop Question Answering (MHQA) adds layers of complexity to question
answering, making it more challenging. When Language Models (LMs) are prompted
with multiple search results, they are tasked not only with retrieving relevant
information but also employing multi-hop reasoning across the information
sources. Although LMs perform well on traditional question-answering tasks, the
causal mask can hinder their capacity to reason across complex contexts. In
this paper, we explore how LMs respond to multi-hop questions by permuting
search results (retrieved documents) under various configurations. Our study
reveals interesting findings as follows: 1) Encoder-decoder models, such as the
ones in the Flan-T5 family, generally outperform causal decoder-only LMs in
MHQA tasks, despite being significantly smaller in size; 2) altering the order
of gold documents reveals distinct trends in both Flan T5 models and fine-tuned
decoder-only models, with optimal performance observed when the document order
aligns with the reasoning chain order; 3) enhancing causal decoder-only models
with bi-directional attention by modifying the causal mask can effectively
boost their end performance. In addition to the above, we conduct a thorough
investigation of the distribution of LM attention weights in the context of
MHQA. Our experiments reveal that attention weights tend to peak at higher
values when the resulting answer is correct. We leverage this finding to
heuristically improve LMs' performance on this task. Our code is publicly
available at https://github.com/hwy9855/MultiHopQA-Reasoning.