Eliminación del Sesgo de Posición de los Modelos de Lenguaje: Un Enfoque Mecanicista
Eliminating Position Bias of Language Models: A Mechanistic Approach
July 1, 2024
Autores: Ziqi Wang, Hanlin Zhang, Xiner Li, Kuan-Hao Huang, Chi Han, Shuiwang Ji, Sham M. Kakade, Hao Peng, Heng Ji
cs.AI
Resumen
El sesgo de posición ha demostrado ser un problema prevalente en los modelos de lenguaje modernos (LM), donde los modelos priorizan el contenido según su posición dentro del contexto dado. Este sesgo a menudo conduce a fallas inesperadas en el modelo y afecta el rendimiento, la robustez y la confiabilidad en diversas aplicaciones. Nuestro análisis mecanicista atribuye el sesgo de posición a dos componentes utilizados en casi todos los LM de última generación: la atención causal y las codificaciones posicionales relativas. Específicamente, encontramos que la atención causal generalmente hace que los modelos favorezcan el contenido distante, mientras que las codificaciones posicionales relativas como RoPE prefieren los cercanos según el análisis de preguntas y respuestas aumentadas por recuperación (QA). Además, nuestro estudio empírico sobre detección de objetos revela que el sesgo de posición también está presente en los modelos de visión-lenguaje (VLM).
Basándonos en los análisis anteriores, proponemos ELIMINAR el sesgo de posición causado por diferentes órdenes de segmentos de entrada (por ejemplo, opciones en LM-como-juez, documentos recuperados en QA) de manera ZERO-SHOT sin entrenamiento. Nuestro método cambia la atención causal a atención bidireccional entre segmentos y utiliza los valores de atención del modelo para decidir los órdenes relativos de los segmentos en lugar de usar el orden proporcionado en las indicaciones de entrada, permitiendo así una inferencia Posicionalmente INvariante (PINE) a nivel de segmento. Al eliminar el sesgo de posición, los modelos logran un mejor rendimiento y confiabilidad en tareas posteriores donde el sesgo de posición está ampliamente presente, como LM-como-juez y QA aumentada por recuperación.
Es notable que PINE es especialmente útil al adaptar LM para evaluar pares de razonamiento: proporciona consistentemente ganancias de rendimiento de 8 a 10 puntos porcentuales en la mayoría de los casos, y hace que Llama-3-70B-Instruct funcione aún mejor que GPT-4-0125-preview en el subconjunto de razonamiento de RewardBench.
English
Position bias has proven to be a prevalent issue of modern language models
(LMs), where the models prioritize content based on its position within the
given context. This bias often leads to unexpected model failures and hurts
performance, robustness, and reliability across various applications. Our
mechanistic analysis attributes the position bias to two components employed in
nearly all state-of-the-art LMs: causal attention and relative positional
encodings. Specifically, we find that causal attention generally causes models
to favor distant content, while relative positional encodings like RoPE prefer
nearby ones based on the analysis of retrieval-augmented question answering
(QA). Further, our empirical study on object detection reveals that position
bias is also present in vision-language models (VLMs).
Based on the above analyses, we propose to ELIMINATE position bias caused by
different input segment orders (e.g., options in LM-as-a-judge, retrieved
documents in QA) in a TRAINING-FREE ZERO-SHOT manner. Our method changes the
causal attention to bidirectional attention between segments and utilizes model
attention values to decide the relative orders of segments instead of using the
order provided in input prompts, therefore enabling Position-INvariant
inferencE (PINE) at the segment level. By eliminating position bias, models
achieve better performance and reliability in downstream tasks where position
bias widely exists, such as LM-as-a-judge and retrieval-augmented QA.
Notably, PINE is especially useful when adapting LMs for evaluating reasoning
pairs: it consistently provides 8 to 10 percentage points performance gains in
most cases, and makes Llama-3-70B-Instruct perform even better than
GPT-4-0125-preview on the RewardBench reasoning subset.Summary
AI-Generated Summary