Masking in Multi-Hop QA: Eine Analyse der Leistung von Sprachmodellen bei Kontextpermutation
Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation
May 16, 2025
Autoren: Wenyu Huang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan
cs.AI
Zusammenfassung
Multi-Hop Question Answering (MHQA) fügt der Fragebeantwortung zusätzliche Komplexitätsebenen hinzu, was sie anspruchsvoller macht. Wenn Sprachmodelle (LMs) mit mehreren Suchergebnissen konfrontiert werden, müssen sie nicht nur relevante Informationen abrufen, sondern auch Multi-Hop-Schlussfolgerungen über die Informationsquellen hinweg anstellen. Obwohl LMs bei traditionellen Fragebeantwortungsaufgaben gut abschneiden, kann die kausale Maske ihre Fähigkeit beeinträchtigen, komplexe Kontexte zu durchdenken. In diesem Artikel untersuchen wir, wie LMs auf Multi-Hop-Fragen reagieren, indem wir Suchergebnisse (abgerufene Dokumente) unter verschiedenen Konfigurationen permutieren. Unsere Studie offenbart folgende interessante Erkenntnisse: 1) Encoder-Decoder-Modelle, wie die der Flan-T5-Familie, übertreffen in der Regel kausale Decoder-only-LMs bei MHQA-Aufgaben, obwohl sie deutlich kleiner sind; 2) die Veränderung der Reihenfolge von Golddokumenten zeigt unterschiedliche Trends sowohl bei Flan-T5-Modellen als auch bei feinabgestimmten Decoder-only-Modellen, wobei die beste Leistung erzielt wird, wenn die Dokumentenreihenfolge mit der Reihenfolge der Schlussfolgerungskette übereinstimmt; 3) die Verbesserung kausaler Decoder-only-Modelle durch bidirektionale Aufmerksamkeit durch Modifikation der kausalen Maske kann ihre Endleistung effektiv steigern. Zusätzlich dazu führen wir eine umfassende Untersuchung der Verteilung der Aufmerksamkeitsgewichte von LMs im Kontext von MHQA durch. Unsere Experimente zeigen, dass die Aufmerksamkeitsgewichte tendenziell höhere Werte erreichen, wenn die resultierende Antwort korrekt ist. Wir nutzen diese Erkenntnis, um die Leistung von LMs bei dieser Aufgabe heuristisch zu verbessern. Unser Code ist öffentlich verfügbar unter https://github.com/hwy9855/MultiHopQA-Reasoning.
English
Multi-hop Question Answering (MHQA) adds layers of complexity to question
answering, making it more challenging. When Language Models (LMs) are prompted
with multiple search results, they are tasked not only with retrieving relevant
information but also employing multi-hop reasoning across the information
sources. Although LMs perform well on traditional question-answering tasks, the
causal mask can hinder their capacity to reason across complex contexts. In
this paper, we explore how LMs respond to multi-hop questions by permuting
search results (retrieved documents) under various configurations. Our study
reveals interesting findings as follows: 1) Encoder-decoder models, such as the
ones in the Flan-T5 family, generally outperform causal decoder-only LMs in
MHQA tasks, despite being significantly smaller in size; 2) altering the order
of gold documents reveals distinct trends in both Flan T5 models and fine-tuned
decoder-only models, with optimal performance observed when the document order
aligns with the reasoning chain order; 3) enhancing causal decoder-only models
with bi-directional attention by modifying the causal mask can effectively
boost their end performance. In addition to the above, we conduct a thorough
investigation of the distribution of LM attention weights in the context of
MHQA. Our experiments reveal that attention weights tend to peak at higher
values when the resulting answer is correct. We leverage this finding to
heuristically improve LMs' performance on this task. Our code is publicly
available at https://github.com/hwy9855/MultiHopQA-Reasoning.Summary
AI-Generated Summary