Mascaramento em QA Multi-hop: Uma Análise do Desempenho de Modelos de Linguagem com Permutação de Contexto

Resumo

A Resposta a Perguntas de Múltiplos Saltos (MHQA, na sigla em inglês) adiciona camadas de complexidade à tarefa de responder perguntas, tornando-a mais desafiadora. Quando Modelos de Linguagem (LMs) são confrontados com múltiplos resultados de pesquisa, eles não apenas precisam recuperar informações relevantes, mas também empregar raciocínio de múltiplos saltos entre as fontes de informação. Embora os LMs tenham um bom desempenho em tarefas tradicionais de resposta a perguntas, a máscara causal pode prejudicar sua capacidade de raciocinar em contextos complexos. Neste artigo, exploramos como os LMs respondem a perguntas de múltiplos saltos ao permutar os resultados de pesquisa (documentos recuperados) sob várias configurações. Nosso estudo revela descobertas interessantes, conforme segue: 1) Modelos codificador-decodificador, como os da família Flan-T5, geralmente superam LMs decodificadores apenas causais em tarefas de MHQA, apesar de serem significativamente menores em tamanho; 2) alterar a ordem dos documentos relevantes revela tendências distintas tanto nos modelos Flan T5 quanto nos modelos decodificadores apenas causais ajustados, com o melhor desempenho observado quando a ordem dos documentos está alinhada com a ordem da cadeia de raciocínio; 3) aprimorar modelos decodificadores apenas causais com atenção bidirecional, modificando a máscara causal, pode efetivamente impulsionar seu desempenho final. Além disso, realizamos uma investigação detalhada da distribuição dos pesos de atenção dos LMs no contexto de MHQA. Nossos experimentos revelam que os pesos de atenção tendem a atingir valores mais altos quando a resposta resultante está correta. Aproveitamos essa descoberta para melhorar heuristicamente o desempenho dos LMs nessa tarefa. Nosso código está disponível publicamente em https://github.com/hwy9855/MultiHopQA-Reasoning.

English

Multi-hop Question Answering (MHQA) adds layers of complexity to question answering, making it more challenging. When Language Models (LMs) are prompted with multiple search results, they are tasked not only with retrieving relevant information but also employing multi-hop reasoning across the information sources. Although LMs perform well on traditional question-answering tasks, the causal mask can hinder their capacity to reason across complex contexts. In this paper, we explore how LMs respond to multi-hop questions by permuting search results (retrieved documents) under various configurations. Our study reveals interesting findings as follows: 1) Encoder-decoder models, such as the ones in the Flan-T5 family, generally outperform causal decoder-only LMs in MHQA tasks, despite being significantly smaller in size; 2) altering the order of gold documents reveals distinct trends in both Flan T5 models and fine-tuned decoder-only models, with optimal performance observed when the document order aligns with the reasoning chain order; 3) enhancing causal decoder-only models with bi-directional attention by modifying the causal mask can effectively boost their end performance. In addition to the above, we conduct a thorough investigation of the distribution of LM attention weights in the context of MHQA. Our experiments reveal that attention weights tend to peak at higher values when the resulting answer is correct. We leverage this finding to heuristically improve LMs' performance on this task. Our code is publicly available at https://github.com/hwy9855/MultiHopQA-Reasoning.

Mascaramento em QA Multi-hop: Uma Análise do Desempenho de Modelos de Linguagem com Permutação de Contexto

Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation

Resumo

Support