Élimination du biais positionnel des modèles de langage : une approche mécaniste

papers.abstract

Le biais de position s'est avéré être un problème prévalent dans les modèles de langage modernes (LMs), où les modèles privilégient le contenu en fonction de sa position dans le contexte donné. Ce biais entraîne souvent des échecs inattendus du modèle et nuit aux performances, à la robustesse et à la fiabilité dans diverses applications. Notre analyse mécanistique attribue ce biais de position à deux composants utilisés dans presque tous les LMs de pointe : l'attention causale et les encodages positionnels relatifs. Plus précisément, nous constatons que l'attention causale amène généralement les modèles à favoriser le contenu distant, tandis que les encodages positionnels relatifs comme RoPE privilégient le contenu proche, selon l'analyse de la question-réponse augmentée par récupération (QA). De plus, notre étude empirique sur la détection d'objets révèle que le biais de position est également présent dans les modèles vision-langage (VLMs). Sur la base des analyses ci-dessus, nous proposons d'ÉLIMINER le biais de position causé par différents ordres de segments d'entrée (par exemple, les options dans LM-as-a-judge, les documents récupérés en QA) de manière ZERO-SHOT et SANS ENTRAÎNEMENT. Notre méthode remplace l'attention causale par une attention bidirectionnelle entre les segments et utilise les valeurs d'attention du modèle pour décider de l'ordre relatif des segments au lieu d'utiliser l'ordre fourni dans les prompts d'entrée, permettant ainsi une inférence INVARIANTE à la POSITION (PINE) au niveau des segments. En éliminant le biais de position, les modèles obtiennent de meilleures performances et une plus grande fiabilité dans les tâches en aval où ce biais est largement présent, comme dans LM-as-a-judge et la QA augmentée par récupération. Notamment, PINE est particulièrement utile lors de l'adaptation des LMs pour évaluer des paires de raisonnement : il apporte systématiquement des gains de performance de 8 à 10 points de pourcentage dans la plupart des cas, et permet à Llama-3-70B-Instruct de surpasser GPT-4-0125-preview sur le sous-ensemble de raisonnement de RewardBench.

English

Position bias has proven to be a prevalent issue of modern language models (LMs), where the models prioritize content based on its position within the given context. This bias often leads to unexpected model failures and hurts performance, robustness, and reliability across various applications. Our mechanistic analysis attributes the position bias to two components employed in nearly all state-of-the-art LMs: causal attention and relative positional encodings. Specifically, we find that causal attention generally causes models to favor distant content, while relative positional encodings like RoPE prefer nearby ones based on the analysis of retrieval-augmented question answering (QA). Further, our empirical study on object detection reveals that position bias is also present in vision-language models (VLMs). Based on the above analyses, we propose to ELIMINATE position bias caused by different input segment orders (e.g., options in LM-as-a-judge, retrieved documents in QA) in a TRAINING-FREE ZERO-SHOT manner. Our method changes the causal attention to bidirectional attention between segments and utilizes model attention values to decide the relative orders of segments instead of using the order provided in input prompts, therefore enabling Position-INvariant inferencE (PINE) at the segment level. By eliminating position bias, models achieve better performance and reliability in downstream tasks where position bias widely exists, such as LM-as-a-judge and retrieval-augmented QA. Notably, PINE is especially useful when adapting LMs for evaluating reasoning pairs: it consistently provides 8 to 10 percentage points performance gains in most cases, and makes Llama-3-70B-Instruct perform even better than GPT-4-0125-preview on the RewardBench reasoning subset.

Élimination du biais positionnel des modèles de langage : une approche mécaniste

Eliminating Position Bias of Language Models: A Mechanistic Approach

papers.abstract

Support