Mascaramento em QA Multi-hop: Uma Análise do Desempenho de Modelos de Linguagem com Permutação de Contexto
Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation
May 16, 2025
Autores: Wenyu Huang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan
cs.AI
Resumo
A Resposta a Perguntas de Múltiplos Saltos (MHQA, na sigla em inglês) adiciona camadas de complexidade à tarefa de responder perguntas, tornando-a mais desafiadora. Quando Modelos de Linguagem (LMs) são confrontados com múltiplos resultados de pesquisa, eles não apenas precisam recuperar informações relevantes, mas também empregar raciocínio de múltiplos saltos entre as fontes de informação. Embora os LMs tenham um bom desempenho em tarefas tradicionais de resposta a perguntas, a máscara causal pode prejudicar sua capacidade de raciocinar em contextos complexos. Neste artigo, exploramos como os LMs respondem a perguntas de múltiplos saltos ao permutar os resultados de pesquisa (documentos recuperados) sob várias configurações. Nosso estudo revela descobertas interessantes, conforme segue: 1) Modelos codificador-decodificador, como os da família Flan-T5, geralmente superam LMs decodificadores apenas causais em tarefas de MHQA, apesar de serem significativamente menores em tamanho; 2) alterar a ordem dos documentos relevantes revela tendências distintas tanto nos modelos Flan T5 quanto nos modelos decodificadores apenas causais ajustados, com o melhor desempenho observado quando a ordem dos documentos está alinhada com a ordem da cadeia de raciocínio; 3) aprimorar modelos decodificadores apenas causais com atenção bidirecional, modificando a máscara causal, pode efetivamente impulsionar seu desempenho final. Além disso, realizamos uma investigação detalhada da distribuição dos pesos de atenção dos LMs no contexto de MHQA. Nossos experimentos revelam que os pesos de atenção tendem a atingir valores mais altos quando a resposta resultante está correta. Aproveitamos essa descoberta para melhorar heuristicamente o desempenho dos LMs nessa tarefa. Nosso código está disponível publicamente em https://github.com/hwy9855/MultiHopQA-Reasoning.
English
Multi-hop Question Answering (MHQA) adds layers of complexity to question
answering, making it more challenging. When Language Models (LMs) are prompted
with multiple search results, they are tasked not only with retrieving relevant
information but also employing multi-hop reasoning across the information
sources. Although LMs perform well on traditional question-answering tasks, the
causal mask can hinder their capacity to reason across complex contexts. In
this paper, we explore how LMs respond to multi-hop questions by permuting
search results (retrieved documents) under various configurations. Our study
reveals interesting findings as follows: 1) Encoder-decoder models, such as the
ones in the Flan-T5 family, generally outperform causal decoder-only LMs in
MHQA tasks, despite being significantly smaller in size; 2) altering the order
of gold documents reveals distinct trends in both Flan T5 models and fine-tuned
decoder-only models, with optimal performance observed when the document order
aligns with the reasoning chain order; 3) enhancing causal decoder-only models
with bi-directional attention by modifying the causal mask can effectively
boost their end performance. In addition to the above, we conduct a thorough
investigation of the distribution of LM attention weights in the context of
MHQA. Our experiments reveal that attention weights tend to peak at higher
values when the resulting answer is correct. We leverage this finding to
heuristically improve LMs' performance on this task. Our code is publicly
available at https://github.com/hwy9855/MultiHopQA-Reasoning.