Maskeren in Multi-hop QA: Een analyse van hoe taalmodelen presteren bij contextpermutatie
Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation
May 16, 2025
Auteurs: Wenyu Huang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan
cs.AI
Samenvatting
Multi-hop Question Answering (MHQA) voegt lagen van complexiteit toe aan vraag-antwoordtaken, waardoor deze uitdagender worden. Wanneer Taalmodellen (LMs) worden geprompt met meerdere zoekresultaten, moeten ze niet alleen relevante informatie ophalen, maar ook multi-hop redenering toepassen over de informatiebronnen. Hoewel LMs goed presteren op traditionele vraag-antwoordtaken, kan het causale masker hun vermogen om te redeneren over complexe contexten belemmeren. In dit artikel onderzoeken we hoe LMs reageren op multi-hop vragen door zoekresultaten (opgehaalde documenten) te permuteren onder verschillende configuraties. Onze studie onthult interessante bevindingen als volgt: 1) Encoder-decoder modellen, zoals die in de Flan-T5 familie, presteren over het algemeen beter dan causale decoder-only LMs in MHQA-taken, ondanks dat ze aanzienlijk kleiner in omvang zijn; 2) het veranderen van de volgorde van gouden documenten onthult duidelijke trends in zowel Flan T5 modellen als fine-tuned decoder-only modellen, waarbij optimale prestaties worden waargenomen wanneer de documentvolgorde overeenkomt met de redeneerketen; 3) het verbeteren van causale decoder-only modellen met bi-directionele aandacht door het causale masker aan te passen, kan hun eindprestaties effectief verbeteren. Daarnaast voeren we een grondig onderzoek uit naar de verdeling van LM-aandachtsgewichten in de context van MHQA. Onze experimenten tonen aan dat aandachtsgewichten de neiging hebben om hogere waarden te bereiken wanneer het resulterende antwoord correct is. We benutten deze bevinding om heuristisch de prestaties van LMs op deze taak te verbeteren. Onze code is publiekelijk beschikbaar op https://github.com/hwy9855/MultiHopQA-Reasoning.
English
Multi-hop Question Answering (MHQA) adds layers of complexity to question
answering, making it more challenging. When Language Models (LMs) are prompted
with multiple search results, they are tasked not only with retrieving relevant
information but also employing multi-hop reasoning across the information
sources. Although LMs perform well on traditional question-answering tasks, the
causal mask can hinder their capacity to reason across complex contexts. In
this paper, we explore how LMs respond to multi-hop questions by permuting
search results (retrieved documents) under various configurations. Our study
reveals interesting findings as follows: 1) Encoder-decoder models, such as the
ones in the Flan-T5 family, generally outperform causal decoder-only LMs in
MHQA tasks, despite being significantly smaller in size; 2) altering the order
of gold documents reveals distinct trends in both Flan T5 models and fine-tuned
decoder-only models, with optimal performance observed when the document order
aligns with the reasoning chain order; 3) enhancing causal decoder-only models
with bi-directional attention by modifying the causal mask can effectively
boost their end performance. In addition to the above, we conduct a thorough
investigation of the distribution of LM attention weights in the context of
MHQA. Our experiments reveal that attention weights tend to peak at higher
values when the resulting answer is correct. We leverage this finding to
heuristically improve LMs' performance on this task. Our code is publicly
available at https://github.com/hwy9855/MultiHopQA-Reasoning.Summary
AI-Generated Summary