TIDE: Elke Laag Kent de Token Onder de Context

Samenvatting

Wij herzien een algemeen aanvaarde maar onderbelichte ontwerpkeuze in elk modern groot taalmodel: een tokenindex wordt eenmalig opgezocht in de invoer-embeddinglaag en vervolgens permanent verworpen. Deze veronderstelling van eenmalige injectie veroorzaakt twee structurele tekortkomingen: (i) het Zeldzame Token Probleem, waarbij een Zipf-achtige verdeling van de vocabulaire ervoor zorgt dat embeddingvectoren van zeldzame tokens chronisch ondertraind raken, omdat zij slechts een fractie van het cumulatieve gradiëntsignaal ontvangen in vergelijking met frequente tokens; en (ii) het Contextuele Ineenstortingsprobleem, waarbij modellen met beperkte parameters distributioneel vergelijkbare tokens afbeelden naar ononderscheidbare verborgen toestanden. Als poging om beide problemen aan te pakken, stellen wij TIDE voor, dat de standaard transformer uitbreidt met een EmbeddingGeheugen: een ensemble van K onafhankelijke GeheugenBlokken die tokenindices afbeelden op contextvrije semantische vectoren. Deze worden eenmalig berekend en in elke laag geïnjecteerd via een diepte-gestuurde softmax-router met een leerbare nulbank. Wij leggen zowel theoretisch als empirisch de voordelen van TIDE vast bij het aanpakken van de problemen verbonden aan eenmalige tokenidentiteitsinjectie, en tonen tevens prestatieverbeteringen aan bij diverse taalmodel- en downstreamtaken.

English

We revisit a universally accepted but under-examined design choice in every modern LLM: a token index is looked up once at the input embedding layer and then permanently discarded. This single-injection assumption induces two structural failures: (i) the Rare Token Problem, where a Zipf-type distribution of vocabulary causes rare-token embeddings are chronically under-trained due to receiving a fraction of the cumulative gradient signal compared to common tokens; and (ii) the Contextual Collapse Problem, where limited parameters models map distributionally similar tokens to indistinguishable hidden states. As an attempt to address both, we propose TIDE, which augments the standard transformer with EmbeddingMemory: an ensemble of K independent MemoryBlocks that map token indices to context-free semantic vectors, computed once and injected into every layer through a depth-conditioned softmax router with a learnable null bank. We theoretically and empirically establish the benefits of TIDE in addressing the issues associated with single-token identity injection as well as improve performance across multiple language modeling and downstream tasks.

TIDE: Elke Laag Kent de Token Onder de Context

TIDE: Every Layer Knows the Token Beneath the Context

Samenvatting

Support