Verdwaald in de Promptvolgorde: De Beperkingen van Causale Aandacht in Taalmodellen Blootgelegd

Samenvatting

Grote taalmodellen vertonen een verrassende gevoeligheid voor de structuur van de prompt, maar de onderliggende mechanismen hiervan zijn nog slecht begrepen. In dit werk voeren we een diepgaand onderzoek uit naar een opvallend geval: bij meerkeuzevragen presteert de volgorde waarbij de context voor de vragen en opties wordt geplaatst (CQO) consequent meer dan 14%p beter dan de omgekeerde volgorde (QOC), over een breed scala aan modellen en datasets. Door middel van systematische architectuuranalyse identificeren we causale aandacht als het kernmechanisme: in QOC-prompts voorkomt het causale masker dat optie-tokens aandacht besteden aan de context, wat een informatieknelpunt creëert waarbij de context onzichtbaar wordt voor de opties.

English

Large language models exhibit surprising sensitivity to the structure of the prompt, but the mechanisms underlying this sensitivity remain poorly understood. In this work, we conduct an in-depth investigation on a striking case: in multiple-choice question answering, placing context before the questions and options (CQO) outperforms the reverse order (QOC) by over 14%p, consistently over a wide range of models and datasets. Through systematic architectural analysis, we identify causal attention as the core mechanism: in QOC prompts, the causal mask prevents option tokens from attending to context, creating an information bottleneck where context becomes invisible to options.

Verdwaald in de Promptvolgorde: De Beperkingen van Causale Aandacht in Taalmodellen Blootgelegd

Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

Samenvatting

Support