ChatPaper.aiChatPaper

Mascheramento nel QA Multi-hop: Un'analisi delle prestazioni dei modelli linguistici con permutazione del contesto

Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation

May 16, 2025
Autori: Wenyu Huang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan
cs.AI

Abstract

Il Question Answering Multi-hop (MHQA) aggiunge livelli di complessità al question answering, rendendolo più impegnativo. Quando i Language Models (LM) vengono sollecitati con più risultati di ricerca, sono chiamati non solo a recuperare informazioni rilevanti, ma anche a impiegare ragionamenti multi-hop attraverso le fonti di informazioni. Sebbene i LM performino bene nei tradizionali compiti di question answering, la maschera causale può ostacolare la loro capacità di ragionare in contesti complessi. In questo articolo, esploriamo come i LM rispondono a domande multi-hop permutando i risultati di ricerca (documenti recuperati) in varie configurazioni. Il nostro studio rivela interessanti risultati come segue: 1) I modelli encoder-decoder, come quelli della famiglia Flan-T5, generalmente superano i LM decoder-only causali nei compiti MHQA, nonostante siano significativamente più piccoli in termini di dimensioni; 2) alterare l'ordine dei documenti gold rivela tendenze distinte sia nei modelli Flan T5 che nei modelli decoder-only fine-tuned, con prestazioni ottimali osservate quando l'ordine dei documenti si allinea con l'ordine della catena di ragionamento; 3) potenziare i modelli decoder-only causali con attenzione bidirezionale modificando la maschera causale può efficacemente migliorare le loro prestazioni finali. Oltre a quanto sopra, conduciamo un'indagine approfondita sulla distribuzione dei pesi di attenzione dei LM nel contesto dell'MHQA. I nostri esperimenti rivelano che i pesi di attenzione tendono a raggiungere picchi più alti quando la risposta risultante è corretta. Sfruttiamo questa scoperta per migliorare euristicamente le prestazioni dei LM su questo compito. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/hwy9855/MultiHopQA-Reasoning.
English
Multi-hop Question Answering (MHQA) adds layers of complexity to question answering, making it more challenging. When Language Models (LMs) are prompted with multiple search results, they are tasked not only with retrieving relevant information but also employing multi-hop reasoning across the information sources. Although LMs perform well on traditional question-answering tasks, the causal mask can hinder their capacity to reason across complex contexts. In this paper, we explore how LMs respond to multi-hop questions by permuting search results (retrieved documents) under various configurations. Our study reveals interesting findings as follows: 1) Encoder-decoder models, such as the ones in the Flan-T5 family, generally outperform causal decoder-only LMs in MHQA tasks, despite being significantly smaller in size; 2) altering the order of gold documents reveals distinct trends in both Flan T5 models and fine-tuned decoder-only models, with optimal performance observed when the document order aligns with the reasoning chain order; 3) enhancing causal decoder-only models with bi-directional attention by modifying the causal mask can effectively boost their end performance. In addition to the above, we conduct a thorough investigation of the distribution of LM attention weights in the context of MHQA. Our experiments reveal that attention weights tend to peak at higher values when the resulting answer is correct. We leverage this finding to heuristically improve LMs' performance on this task. Our code is publicly available at https://github.com/hwy9855/MultiHopQA-Reasoning.
PDF22May 21, 2025