Eliminazione del Bias Posizionale nei Modelli Linguistici: Un Approccio Meccanicistico
Eliminating Position Bias of Language Models: A Mechanistic Approach
July 1, 2024
Autori: Ziqi Wang, Hanlin Zhang, Xiner Li, Kuan-Hao Huang, Chi Han, Shuiwang Ji, Sham M. Kakade, Hao Peng, Heng Ji
cs.AI
Abstract
Il bias posizionale si è dimostrato un problema diffuso nei moderni modelli linguistici (LM), in cui i modelli privilegiano il contenuto in base alla sua posizione all'interno del contesto fornito. Questo bias spesso porta a fallimenti imprevisti del modello e compromette le prestazioni, la robustezza e l'affidabilità in varie applicazioni. La nostra analisi meccanicistica attribuisce il bias posizionale a due componenti utilizzati in quasi tutti i LM all'avanguardia: l'attenzione causale e le codifiche posizionali relative. In particolare, scopriamo che l'attenzione causale induce generalmente i modelli a favorire il contenuto distante, mentre le codifiche posizionali relative come RoPE preferiscono quello vicino, sulla base dell'analisi del question answering (QA) potenziato dal recupero di informazioni. Inoltre, il nostro studio empirico sul rilevamento di oggetti rivela che il bias posizionale è presente anche nei modelli visione-linguaggio (VLM).
Sulla base delle analisi sopra descritte, proponiamo di ELIMINARE il bias posizionale causato da diversi ordini di segmenti di input (ad esempio, opzioni in LM-as-a-judge, documenti recuperati in QA) in modo TRAINING-FREE ZERO-SHOT. Il nostro metodo modifica l'attenzione causale in un'attenzione bidirezionale tra i segmenti e utilizza i valori di attenzione del modello per decidere l'ordine relativo dei segmenti invece di usare l'ordine fornito nei prompt di input, consentendo così un'inferenza INVARIANTE alla POSIZIONE (PINE) a livello di segmento. Eliminando il bias posizionale, i modelli raggiungono prestazioni e affidabilità migliori nei task downstream in cui il bias posizionale è ampiamente presente, come LM-as-a-judge e QA potenziato dal recupero di informazioni.
In particolare, PINE è particolarmente utile quando si adattano i LM per valutare coppie di ragionamento: fornisce costantemente miglioramenti delle prestazioni dell'8-10% nella maggior parte dei casi e fa sì che Llama-3-70B-Instruct performi persino meglio di GPT-4-0125-preview nel sottoinsieme di ragionamento di RewardBench.
English
Position bias has proven to be a prevalent issue of modern language models
(LMs), where the models prioritize content based on its position within the
given context. This bias often leads to unexpected model failures and hurts
performance, robustness, and reliability across various applications. Our
mechanistic analysis attributes the position bias to two components employed in
nearly all state-of-the-art LMs: causal attention and relative positional
encodings. Specifically, we find that causal attention generally causes models
to favor distant content, while relative positional encodings like RoPE prefer
nearby ones based on the analysis of retrieval-augmented question answering
(QA). Further, our empirical study on object detection reveals that position
bias is also present in vision-language models (VLMs).
Based on the above analyses, we propose to ELIMINATE position bias caused by
different input segment orders (e.g., options in LM-as-a-judge, retrieved
documents in QA) in a TRAINING-FREE ZERO-SHOT manner. Our method changes the
causal attention to bidirectional attention between segments and utilizes model
attention values to decide the relative orders of segments instead of using the
order provided in input prompts, therefore enabling Position-INvariant
inferencE (PINE) at the segment level. By eliminating position bias, models
achieve better performance and reliability in downstream tasks where position
bias widely exists, such as LM-as-a-judge and retrieval-augmented QA.
Notably, PINE is especially useful when adapting LMs for evaluating reasoning
pairs: it consistently provides 8 to 10 percentage points performance gains in
most cases, and makes Llama-3-70B-Instruct perform even better than
GPT-4-0125-preview on the RewardBench reasoning subset.