Beseitigung der Positionsverzerrung von Sprachmodellen: Ein mechanistischer Ansatz
Eliminating Position Bias of Language Models: A Mechanistic Approach
July 1, 2024
Autoren: Ziqi Wang, Hanlin Zhang, Xiner Li, Kuan-Hao Huang, Chi Han, Shuiwang Ji, Sham M. Kakade, Hao Peng, Heng Ji
cs.AI
Zusammenfassung
Positionsverzerrung hat sich als ein weit verbreitetes Problem moderner Sprachmodelle (LMs) erwiesen, bei dem die Modelle Inhalte basierend auf ihrer Position innerhalb des gegebenen Kontexts priorisieren. Diese Verzerrung führt oft zu unerwarteten Modellausfällen und beeinträchtigt die Leistung, Robustheit und Zuverlässigkeit in verschiedenen Anwendungen. Unsere mechanistische Analyse führt die Positionsverzerrung auf zwei Komponenten zurück, die in nahezu allen hochmodernen LMs verwendet werden: kausale Aufmerksamkeit und relative Positionscodierungen. Insbesondere stellen wir fest, dass kausale Aufmerksamkeit im Allgemeinen dazu führt, dass Modelle entfernte Inhalte bevorzugen, während relative Positionscodierungen wie RoPE aufgrund der Analyse von abrufgestützten Frage-Antworten (QA) nahegelegene bevorzugen. Darüber hinaus zeigt unsere empirische Studie zur Objekterkennung, dass Positionsverzerrung auch in Bildsprachmodellen (VLMs) vorhanden ist.
Basierend auf den obigen Analysen schlagen wir vor, die Positionsverzerrung, die durch unterschiedliche Eingabesegmentreihenfolgen (z. B. Optionen in LM-als-Richter, abgerufene Dokumente in QA) verursacht wird, auf eine TRAINING-FREE ZERO-SHOT Art zu ELIMINIEREN. Unsere Methode ändert die kausale Aufmerksamkeit in bidirektionale Aufmerksamkeit zwischen Segmenten und nutzt die Aufmerksamkeitswerte des Modells, um die relative Reihenfolge der Segmente zu bestimmen, anstatt die in den Eingabeaufforderungen bereitgestellte Reihenfolge zu verwenden, wodurch Positionsinvariante Inferenz (PINE) auf Segmentebene ermöglicht wird. Durch die Beseitigung der Positionsverzerrung erzielen Modelle eine bessere Leistung und Zuverlässigkeit in nachgelagerten Aufgaben, bei denen Positionsverzerrung weit verbreitet ist, wie LM-als-Richter und abrufgestützte QA.
Bemerkenswert ist, dass PINE besonders nützlich ist, wenn LMs zur Bewertung von Schlussfolgerungspaaren angepasst werden: Es bietet in den meisten Fällen durchweg 8 bis 10 Prozentpunkte Leistungsgewinne und lässt Llama-3-70B-Instruct sogar besser abschneiden als GPT-4-0125-preview auf dem RewardBench-Schlussfolgerungsunterbereich.
English
Position bias has proven to be a prevalent issue of modern language models
(LMs), where the models prioritize content based on its position within the
given context. This bias often leads to unexpected model failures and hurts
performance, robustness, and reliability across various applications. Our
mechanistic analysis attributes the position bias to two components employed in
nearly all state-of-the-art LMs: causal attention and relative positional
encodings. Specifically, we find that causal attention generally causes models
to favor distant content, while relative positional encodings like RoPE prefer
nearby ones based on the analysis of retrieval-augmented question answering
(QA). Further, our empirical study on object detection reveals that position
bias is also present in vision-language models (VLMs).
Based on the above analyses, we propose to ELIMINATE position bias caused by
different input segment orders (e.g., options in LM-as-a-judge, retrieved
documents in QA) in a TRAINING-FREE ZERO-SHOT manner. Our method changes the
causal attention to bidirectional attention between segments and utilizes model
attention values to decide the relative orders of segments instead of using the
order provided in input prompts, therefore enabling Position-INvariant
inferencE (PINE) at the segment level. By eliminating position bias, models
achieve better performance and reliability in downstream tasks where position
bias widely exists, such as LM-as-a-judge and retrieval-augmented QA.
Notably, PINE is especially useful when adapting LMs for evaluating reasoning
pairs: it consistently provides 8 to 10 percentage points performance gains in
most cases, and makes Llama-3-70B-Instruct perform even better than
GPT-4-0125-preview on the RewardBench reasoning subset.Summary
AI-Generated Summary