Enmascaramiento en QA de múltiples saltos: Un análisis del rendimiento de los modelos de lenguaje con permutación de contexto
Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation
May 16, 2025
Autores: Wenyu Huang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan
cs.AI
Resumen
La Respuesta a Preguntas de Múltiples Saltos (MHQA, por sus siglas en inglés) añade capas de complejidad a la tarea de responder preguntas, haciéndola más desafiante. Cuando se presentan múltiples resultados de búsqueda a los Modelos de Lenguaje (LMs), estos no solo deben recuperar información relevante, sino también emplear razonamiento de múltiples saltos a través de las fuentes de información. Aunque los LMs tienen un buen desempeño en tareas tradicionales de respuesta a preguntas, la máscara causal puede limitar su capacidad para razonar en contextos complejos. En este artículo, exploramos cómo los LMs responden a preguntas de múltiples saltos al permutar los resultados de búsqueda (documentos recuperados) bajo diversas configuraciones. Nuestro estudio revela hallazgos interesantes: 1) Los modelos codificador-decodificador, como los de la familia Flan-T5, generalmente superan a los LMs de solo decodificación causal en tareas de MHQA, a pesar de ser significativamente más pequeños en tamaño; 2) alterar el orden de los documentos clave revela tendencias distintas tanto en los modelos Flan T5 como en los modelos de solo decodificación ajustados, observándose un rendimiento óptimo cuando el orden de los documentos coincide con el orden de la cadena de razonamiento; 3) mejorar los modelos de solo decodificación causal con atención bidireccional mediante la modificación de la máscara causal puede aumentar efectivamente su rendimiento final. Además de lo anterior, realizamos una investigación exhaustiva de la distribución de los pesos de atención de los LMs en el contexto de MHQA. Nuestros experimentos revelan que los pesos de atención tienden a alcanzar valores más altos cuando la respuesta resultante es correcta. Aprovechamos este hallazgo para mejorar heurísticamente el rendimiento de los LMs en esta tarea. Nuestro código está disponible públicamente en https://github.com/hwy9855/MultiHopQA-Reasoning.
English
Multi-hop Question Answering (MHQA) adds layers of complexity to question
answering, making it more challenging. When Language Models (LMs) are prompted
with multiple search results, they are tasked not only with retrieving relevant
information but also employing multi-hop reasoning across the information
sources. Although LMs perform well on traditional question-answering tasks, the
causal mask can hinder their capacity to reason across complex contexts. In
this paper, we explore how LMs respond to multi-hop questions by permuting
search results (retrieved documents) under various configurations. Our study
reveals interesting findings as follows: 1) Encoder-decoder models, such as the
ones in the Flan-T5 family, generally outperform causal decoder-only LMs in
MHQA tasks, despite being significantly smaller in size; 2) altering the order
of gold documents reveals distinct trends in both Flan T5 models and fine-tuned
decoder-only models, with optimal performance observed when the document order
aligns with the reasoning chain order; 3) enhancing causal decoder-only models
with bi-directional attention by modifying the causal mask can effectively
boost their end performance. In addition to the above, we conduct a thorough
investigation of the distribution of LM attention weights in the context of
MHQA. Our experiments reveal that attention weights tend to peak at higher
values when the resulting answer is correct. We leverage this finding to
heuristically improve LMs' performance on this task. Our code is publicly
available at https://github.com/hwy9855/MultiHopQA-Reasoning.Summary
AI-Generated Summary