ChatPaper.aiChatPaper

Masquage dans les systèmes de question-réponse multi-sauts : Une analyse des performances des modèles de langage avec permutation de contexte

Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation

May 16, 2025
Auteurs: Wenyu Huang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan
cs.AI

Résumé

Le Question-Réponse Multi-Étapes (MHQA) ajoute des couches de complexité au question-réponse, le rendant plus difficile. Lorsque les modèles de langage (LMs) sont sollicités avec plusieurs résultats de recherche, ils doivent non seulement extraire des informations pertinentes, mais aussi utiliser un raisonnement multi-étapes à travers les sources d'information. Bien que les LMs performent bien sur les tâches traditionnelles de question-réponse, le masque causal peut entraver leur capacité à raisonner dans des contextes complexes. Dans cet article, nous explorons comment les LMs répondent aux questions multi-étapes en permutant les résultats de recherche (documents récupérés) sous diverses configurations. Notre étude révèle des résultats intéressants comme suit : 1) Les modèles encodeur-décodeur, tels que ceux de la famille Flan-T5, surpassent généralement les LMs décodeurs uniquement causaux dans les tâches MHQA, malgré une taille significativement plus petite ; 2) modifier l'ordre des documents de référence révèle des tendances distinctes à la fois dans les modèles Flan T5 et dans les modèles décodeurs uniquement affinés, avec une performance optimale observée lorsque l'ordre des documents correspond à l'ordre de la chaîne de raisonnement ; 3) améliorer les modèles décodeurs uniquement causaux avec une attention bidirectionnelle en modifiant le masque causal peut efficacement augmenter leur performance finale. En plus de ce qui précède, nous menons une investigation approfondie de la distribution des poids d'attention des LMs dans le contexte du MHQA. Nos expériences révèlent que les poids d'attention ont tendance à atteindre des valeurs plus élevées lorsque la réponse obtenue est correcte. Nous exploitons cette découverte pour améliorer heuristiquement la performance des LMs sur cette tâche. Notre code est disponible publiquement à l'adresse https://github.com/hwy9855/MultiHopQA-Reasoning.
English
Multi-hop Question Answering (MHQA) adds layers of complexity to question answering, making it more challenging. When Language Models (LMs) are prompted with multiple search results, they are tasked not only with retrieving relevant information but also employing multi-hop reasoning across the information sources. Although LMs perform well on traditional question-answering tasks, the causal mask can hinder their capacity to reason across complex contexts. In this paper, we explore how LMs respond to multi-hop questions by permuting search results (retrieved documents) under various configurations. Our study reveals interesting findings as follows: 1) Encoder-decoder models, such as the ones in the Flan-T5 family, generally outperform causal decoder-only LMs in MHQA tasks, despite being significantly smaller in size; 2) altering the order of gold documents reveals distinct trends in both Flan T5 models and fine-tuned decoder-only models, with optimal performance observed when the document order aligns with the reasoning chain order; 3) enhancing causal decoder-only models with bi-directional attention by modifying the causal mask can effectively boost their end performance. In addition to the above, we conduct a thorough investigation of the distribution of LM attention weights in the context of MHQA. Our experiments reveal that attention weights tend to peak at higher values when the resulting answer is correct. We leverage this finding to heuristically improve LMs' performance on this task. Our code is publicly available at https://github.com/hwy9855/MultiHopQA-Reasoning.

Summary

AI-Generated Summary

PDF22May 21, 2025