ChatPaper.aiChatPaper

Enmascaramiento en QA de múltiples saltos: Un análisis del rendimiento de los modelos de lenguaje con permutación de contexto

Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation

May 16, 2025
Autores: Wenyu Huang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan
cs.AI

Resumen

La Respuesta a Preguntas de Múltiples Saltos (MHQA, por sus siglas en inglés) añade capas de complejidad a la tarea de responder preguntas, haciéndola más desafiante. Cuando se presentan múltiples resultados de búsqueda a los Modelos de Lenguaje (LMs), estos no solo deben recuperar información relevante, sino también emplear razonamiento de múltiples saltos a través de las fuentes de información. Aunque los LMs tienen un buen desempeño en tareas tradicionales de respuesta a preguntas, la máscara causal puede limitar su capacidad para razonar en contextos complejos. En este artículo, exploramos cómo los LMs responden a preguntas de múltiples saltos al permutar los resultados de búsqueda (documentos recuperados) bajo diversas configuraciones. Nuestro estudio revela hallazgos interesantes: 1) Los modelos codificador-decodificador, como los de la familia Flan-T5, generalmente superan a los LMs de solo decodificación causal en tareas de MHQA, a pesar de ser significativamente más pequeños en tamaño; 2) alterar el orden de los documentos clave revela tendencias distintas tanto en los modelos Flan T5 como en los modelos de solo decodificación ajustados, observándose un rendimiento óptimo cuando el orden de los documentos coincide con el orden de la cadena de razonamiento; 3) mejorar los modelos de solo decodificación causal con atención bidireccional mediante la modificación de la máscara causal puede aumentar efectivamente su rendimiento final. Además de lo anterior, realizamos una investigación exhaustiva de la distribución de los pesos de atención de los LMs en el contexto de MHQA. Nuestros experimentos revelan que los pesos de atención tienden a alcanzar valores más altos cuando la respuesta resultante es correcta. Aprovechamos este hallazgo para mejorar heurísticamente el rendimiento de los LMs en esta tarea. Nuestro código está disponible públicamente en https://github.com/hwy9855/MultiHopQA-Reasoning.
English
Multi-hop Question Answering (MHQA) adds layers of complexity to question answering, making it more challenging. When Language Models (LMs) are prompted with multiple search results, they are tasked not only with retrieving relevant information but also employing multi-hop reasoning across the information sources. Although LMs perform well on traditional question-answering tasks, the causal mask can hinder their capacity to reason across complex contexts. In this paper, we explore how LMs respond to multi-hop questions by permuting search results (retrieved documents) under various configurations. Our study reveals interesting findings as follows: 1) Encoder-decoder models, such as the ones in the Flan-T5 family, generally outperform causal decoder-only LMs in MHQA tasks, despite being significantly smaller in size; 2) altering the order of gold documents reveals distinct trends in both Flan T5 models and fine-tuned decoder-only models, with optimal performance observed when the document order aligns with the reasoning chain order; 3) enhancing causal decoder-only models with bi-directional attention by modifying the causal mask can effectively boost their end performance. In addition to the above, we conduct a thorough investigation of the distribution of LM attention weights in the context of MHQA. Our experiments reveal that attention weights tend to peak at higher values when the resulting answer is correct. We leverage this finding to heuristically improve LMs' performance on this task. Our code is publicly available at https://github.com/hwy9855/MultiHopQA-Reasoning.

Summary

AI-Generated Summary

PDF22May 21, 2025