Maskeren in Multi-hop QA: Een analyse van hoe taalmodelen presteren bij contextpermutatie

Samenvatting

Multi-hop Question Answering (MHQA) voegt lagen van complexiteit toe aan vraag-antwoordtaken, waardoor deze uitdagender worden. Wanneer Taalmodellen (LMs) worden geprompt met meerdere zoekresultaten, moeten ze niet alleen relevante informatie ophalen, maar ook multi-hop redenering toepassen over de informatiebronnen. Hoewel LMs goed presteren op traditionele vraag-antwoordtaken, kan het causale masker hun vermogen om te redeneren over complexe contexten belemmeren. In dit artikel onderzoeken we hoe LMs reageren op multi-hop vragen door zoekresultaten (opgehaalde documenten) te permuteren onder verschillende configuraties. Onze studie onthult interessante bevindingen als volgt: 1) Encoder-decoder modellen, zoals die in de Flan-T5 familie, presteren over het algemeen beter dan causale decoder-only LMs in MHQA-taken, ondanks dat ze aanzienlijk kleiner in omvang zijn; 2) het veranderen van de volgorde van gouden documenten onthult duidelijke trends in zowel Flan T5 modellen als fine-tuned decoder-only modellen, waarbij optimale prestaties worden waargenomen wanneer de documentvolgorde overeenkomt met de redeneerketen; 3) het verbeteren van causale decoder-only modellen met bi-directionele aandacht door het causale masker aan te passen, kan hun eindprestaties effectief verbeteren. Daarnaast voeren we een grondig onderzoek uit naar de verdeling van LM-aandachtsgewichten in de context van MHQA. Onze experimenten tonen aan dat aandachtsgewichten de neiging hebben om hogere waarden te bereiken wanneer het resulterende antwoord correct is. We benutten deze bevinding om heuristisch de prestaties van LMs op deze taak te verbeteren. Onze code is publiekelijk beschikbaar op https://github.com/hwy9855/MultiHopQA-Reasoning.

English

Multi-hop Question Answering (MHQA) adds layers of complexity to question answering, making it more challenging. When Language Models (LMs) are prompted with multiple search results, they are tasked not only with retrieving relevant information but also employing multi-hop reasoning across the information sources. Although LMs perform well on traditional question-answering tasks, the causal mask can hinder their capacity to reason across complex contexts. In this paper, we explore how LMs respond to multi-hop questions by permuting search results (retrieved documents) under various configurations. Our study reveals interesting findings as follows: 1) Encoder-decoder models, such as the ones in the Flan-T5 family, generally outperform causal decoder-only LMs in MHQA tasks, despite being significantly smaller in size; 2) altering the order of gold documents reveals distinct trends in both Flan T5 models and fine-tuned decoder-only models, with optimal performance observed when the document order aligns with the reasoning chain order; 3) enhancing causal decoder-only models with bi-directional attention by modifying the causal mask can effectively boost their end performance. In addition to the above, we conduct a thorough investigation of the distribution of LM attention weights in the context of MHQA. Our experiments reveal that attention weights tend to peak at higher values when the resulting answer is correct. We leverage this finding to heuristically improve LMs' performance on this task. Our code is publicly available at https://github.com/hwy9855/MultiHopQA-Reasoning.

Maskeren in Multi-hop QA: Een analyse van hoe taalmodelen presteren bij contextpermutatie

Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation

Samenvatting

Summary

Support

Support