Masking in Multi-Hop QA: Eine Analyse der Leistung von Sprachmodellen bei Kontextpermutation

papers.abstract

Multi-Hop Question Answering (MHQA) fügt der Fragebeantwortung zusätzliche Komplexitätsebenen hinzu, was sie anspruchsvoller macht. Wenn Sprachmodelle (LMs) mit mehreren Suchergebnissen konfrontiert werden, müssen sie nicht nur relevante Informationen abrufen, sondern auch Multi-Hop-Schlussfolgerungen über die Informationsquellen hinweg anstellen. Obwohl LMs bei traditionellen Fragebeantwortungsaufgaben gut abschneiden, kann die kausale Maske ihre Fähigkeit beeinträchtigen, komplexe Kontexte zu durchdenken. In diesem Artikel untersuchen wir, wie LMs auf Multi-Hop-Fragen reagieren, indem wir Suchergebnisse (abgerufene Dokumente) unter verschiedenen Konfigurationen permutieren. Unsere Studie offenbart folgende interessante Erkenntnisse: 1) Encoder-Decoder-Modelle, wie die der Flan-T5-Familie, übertreffen in der Regel kausale Decoder-only-LMs bei MHQA-Aufgaben, obwohl sie deutlich kleiner sind; 2) die Veränderung der Reihenfolge von Golddokumenten zeigt unterschiedliche Trends sowohl bei Flan-T5-Modellen als auch bei feinabgestimmten Decoder-only-Modellen, wobei die beste Leistung erzielt wird, wenn die Dokumentenreihenfolge mit der Reihenfolge der Schlussfolgerungskette übereinstimmt; 3) die Verbesserung kausaler Decoder-only-Modelle durch bidirektionale Aufmerksamkeit durch Modifikation der kausalen Maske kann ihre Endleistung effektiv steigern. Zusätzlich dazu führen wir eine umfassende Untersuchung der Verteilung der Aufmerksamkeitsgewichte von LMs im Kontext von MHQA durch. Unsere Experimente zeigen, dass die Aufmerksamkeitsgewichte tendenziell höhere Werte erreichen, wenn die resultierende Antwort korrekt ist. Wir nutzen diese Erkenntnis, um die Leistung von LMs bei dieser Aufgabe heuristisch zu verbessern. Unser Code ist öffentlich verfügbar unter https://github.com/hwy9855/MultiHopQA-Reasoning.

English

Multi-hop Question Answering (MHQA) adds layers of complexity to question answering, making it more challenging. When Language Models (LMs) are prompted with multiple search results, they are tasked not only with retrieving relevant information but also employing multi-hop reasoning across the information sources. Although LMs perform well on traditional question-answering tasks, the causal mask can hinder their capacity to reason across complex contexts. In this paper, we explore how LMs respond to multi-hop questions by permuting search results (retrieved documents) under various configurations. Our study reveals interesting findings as follows: 1) Encoder-decoder models, such as the ones in the Flan-T5 family, generally outperform causal decoder-only LMs in MHQA tasks, despite being significantly smaller in size; 2) altering the order of gold documents reveals distinct trends in both Flan T5 models and fine-tuned decoder-only models, with optimal performance observed when the document order aligns with the reasoning chain order; 3) enhancing causal decoder-only models with bi-directional attention by modifying the causal mask can effectively boost their end performance. In addition to the above, we conduct a thorough investigation of the distribution of LM attention weights in the context of MHQA. Our experiments reveal that attention weights tend to peak at higher values when the resulting answer is correct. We leverage this finding to heuristically improve LMs' performance on this task. Our code is publicly available at https://github.com/hwy9855/MultiHopQA-Reasoning.

Masking in Multi-Hop QA: Eine Analyse der Leistung von Sprachmodellen bei Kontextpermutation

Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation

papers.abstract

Support