Eliminando o Viés de Posição dos Modelos de Linguagem: Uma Abordagem Mecanicista
Eliminating Position Bias of Language Models: A Mechanistic Approach
July 1, 2024
Autores: Ziqi Wang, Hanlin Zhang, Xiner Li, Kuan-Hao Huang, Chi Han, Shuiwang Ji, Sham M. Kakade, Hao Peng, Heng Ji
cs.AI
Resumo
O viés de posição tem se mostrado um problema prevalente nos modelos de linguagem modernos (LMs), nos quais os modelos priorizam o conteúdo com base em sua posição dentro do contexto fornecido. Esse viés frequentemente leva a falhas inesperadas do modelo e prejudica o desempenho, robustez e confiabilidade em diversas aplicações. Nossa análise mecanicista atribui o viés de posição a dois componentes empregados em quase todos os LMs de ponta: atenção causal e codificações posicionais relativas. Especificamente, descobrimos que a atenção causal geralmente faz com que os modelos favoreçam conteúdos distantes, enquanto codificações posicionais relativas como RoPE preferem os próximos com base na análise de perguntas e respostas com recuperação aprimorada (QA). Além disso, nosso estudo empírico sobre detecção de objetos revela que o viés de posição também está presente em modelos de visão e linguagem (VLMs).
Com base nas análises acima, propomos ELIMINAR o viés de posição causado por diferentes ordens de segmentos de entrada (por exemplo, opções em LM-como-juiz, documentos recuperados em QA) de forma ZERO-SHOT SEM TREINAMENTO. Nosso método altera a atenção causal para atenção bidirecional entre segmentos e utiliza os valores de atenção do modelo para decidir as ordens relativas dos segmentos em vez de usar a ordem fornecida nas instruções de entrada, possibilitando assim Inferência Posicionalmente Invariante (PINE) no nível do segmento. Ao eliminar o viés de posição, os modelos alcançam melhor desempenho e confiabilidade em tarefas subsequentes onde o viés de posição amplamente existe, como LM-como-juiz e QA com recuperação aprimorada.
Notavelmente, o PINE é especialmente útil ao adaptar LMs para avaliar pares de raciocínio: ele fornece consistentemente ganhos de desempenho de 8 a 10 pontos percentuais na maioria dos casos e faz com que o Llama-3-70B-Instruct tenha um desempenho ainda melhor do que o GPT-4-0125-preview no subconjunto de raciocínio do RewardBench.
English
Position bias has proven to be a prevalent issue of modern language models
(LMs), where the models prioritize content based on its position within the
given context. This bias often leads to unexpected model failures and hurts
performance, robustness, and reliability across various applications. Our
mechanistic analysis attributes the position bias to two components employed in
nearly all state-of-the-art LMs: causal attention and relative positional
encodings. Specifically, we find that causal attention generally causes models
to favor distant content, while relative positional encodings like RoPE prefer
nearby ones based on the analysis of retrieval-augmented question answering
(QA). Further, our empirical study on object detection reveals that position
bias is also present in vision-language models (VLMs).
Based on the above analyses, we propose to ELIMINATE position bias caused by
different input segment orders (e.g., options in LM-as-a-judge, retrieved
documents in QA) in a TRAINING-FREE ZERO-SHOT manner. Our method changes the
causal attention to bidirectional attention between segments and utilizes model
attention values to decide the relative orders of segments instead of using the
order provided in input prompts, therefore enabling Position-INvariant
inferencE (PINE) at the segment level. By eliminating position bias, models
achieve better performance and reliability in downstream tasks where position
bias widely exists, such as LM-as-a-judge and retrieval-augmented QA.
Notably, PINE is especially useful when adapting LMs for evaluating reasoning
pairs: it consistently provides 8 to 10 percentage points performance gains in
most cases, and makes Llama-3-70B-Instruct perform even better than
GPT-4-0125-preview on the RewardBench reasoning subset.