Mengmechanismen: Hoe Taalmodellen Gebonden Entiteiten Ophalen In-Context

Samenvatting

Een belangrijk onderdeel van in-context redeneren is het vermogen van taalmodelen (LMs) om entiteiten te binden voor latere ophaalbaarheid. Een LM kan bijvoorbeeld "Ann houdt van taart" representeren door "Ann" te binden aan "taart", waardoor het later "Ann" kan ophalen wanneer gevraagd wordt "Wie houdt van taart?". Eerder onderzoek naar korte lijsten van gebonden entiteiten vond sterk bewijs dat LMs dergelijke ophaalbaarheid implementeren via een positioneel mechanisme, waarbij "Ann" wordt opgehaald op basis van zijn positie in de context. In dit werk ontdekken we dat dit mechanisme slecht generaliseert naar complexere situaties; naarmate het aantal gebonden entiteiten in de context toeneemt, wordt het positionele mechanisme onnauwkeurig en onbetrouwbaar in middelste posities. Om dit te compenseren, ontdekken we dat LMs het positionele mechanisme aanvullen met een lexicaal mechanisme (het ophalen van "Ann" met behulp van zijn gebonden tegenhanger "taart") en een reflexief mechanisme (het ophalen van "Ann" via een directe verwijzing). Door uitgebreide experimenten op negen modellen en tien bindings taken, ontdekken we een consistent patroon in hoe LMs deze mechanismen combineren om modelgedrag aan te sturen. We benutten deze inzichten om een causaal model te ontwikkelen dat alle drie de mechanismen combineert en dat de verdeling van volgende tokens schat met 95% overeenstemming. Tot slot tonen we aan dat ons model generaliseert naar aanzienlijk langere invoeren van open tekst afgewisseld met entiteitsgroepen, wat de robuustheid van onze bevindingen verder aantoont in meer natuurlijke settings. Over het algemeen biedt onze studie een completer beeld van hoe LMs entiteiten binden en ophalen in-context.

English

A key component of in-context reasoning is the ability of language models (LMs) to bind entities for later retrieval. For example, an LM might represent "Ann loves pie" by binding "Ann" to "pie", allowing it to later retrieve "Ann" when asked "Who loves pie?" Prior research on short lists of bound entities found strong evidence that LMs implement such retrieval via a positional mechanism, where "Ann" is retrieved based on its position in context. In this work, we find that this mechanism generalizes poorly to more complex settings; as the number of bound entities in context increases, the positional mechanism becomes noisy and unreliable in middle positions. To compensate for this, we find that LMs supplement the positional mechanism with a lexical mechanism (retrieving "Ann" using its bound counterpart "pie") and a reflexive mechanism (retrieving "Ann" through a direct pointer). Through extensive experiments on nine models and ten binding tasks, we uncover a consistent pattern in how LMs mix these mechanisms to drive model behavior. We leverage these insights to develop a causal model combining all three mechanisms that estimates next token distributions with 95% agreement. Finally, we show that our model generalizes to substantially longer inputs of open-ended text interleaved with entity groups, further demonstrating the robustness of our findings in more natural settings. Overall, our study establishes a more complete picture of how LMs bind and retrieve entities in-context.

Mengmechanismen: Hoe Taalmodellen Gebonden Entiteiten Ophalen In-Context

Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context

Samenvatting

Support