Persi nell'Ordine dei Prompt: Svelare le Limitazioni dell'Attenzione Causale nei Modelli Linguistici

Abstract

I modelli linguistici di grandi dimensioni mostrano una sorprendente sensibilità alla struttura del prompt, ma i meccanismi alla base di questa sensibilità rimangono poco compresi. In questo lavoro, conduciamo un'indagine approfondita su un caso eclatante: nell'ambito della risposta a domande a scelta multipla, posizionare il contesto prima delle domande e delle opzioni (CQO) supera l'ordine inverso (QOC) di oltre 14 punti percentuali, in modo coerente su un'ampia gamma di modelli e dataset. Attraverso un'analisi architetturale sistematica, identifichiamo l'attenzione causale come il meccanismo centrale: nei prompt QOC, la maschera causale impedisce ai token delle opzioni di prestare attenzione al contesto, creando un collo di bottiglia informativo in cui il contesto diventa invisibile alle opzioni.

English

Large language models exhibit surprising sensitivity to the structure of the prompt, but the mechanisms underlying this sensitivity remain poorly understood. In this work, we conduct an in-depth investigation on a striking case: in multiple-choice question answering, placing context before the questions and options (CQO) outperforms the reverse order (QOC) by over 14%p, consistently over a wide range of models and datasets. Through systematic architectural analysis, we identify causal attention as the core mechanism: in QOC prompts, the causal mask prevents option tokens from attending to context, creating an information bottleneck where context becomes invisible to options.

Persi nell'Ordine dei Prompt: Svelare le Limitazioni dell'Attenzione Causale nei Modelli Linguistici

Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

Abstract

Support