Геометрическое воспроизведение фактов в трансформерах

Аннотация

Каким образом языковые модели на основе трансформеров запоминают фактические ассоциации? Распространённая точка зрения представляет внутренние матрицы весов как ассоциативную память над парами встраиваний, что требует количества параметров, линейно растущего с числом фактов. Мы разрабатываем теоретическое и эмпирическое обоснование альтернативной, геометрической формы запоминания, при которой обученные встраивания напрямую кодируют реляционную структуру, а MLP играет качественно иную роль. В контролируемых условиях, где однослойный трансформер должен запомнить случайные биекции из субъектов в общий набор атрибутов, мы доказываем, что достаточна логарифмическая размерность встраиваний: субъектные встраивания кодируют линейные суперпозиции соответствующих им векторов атрибутов, а небольшой MLP действует как селектор, обусловленный отношением, который извлекает релевантный атрибут посредством стробирования ReLU, и не как ассоциативное отображение ключ-значение. Мы расширяем эти результаты на многошаговую постановку — цепочки реляционных запросов, такие как «Кто является матерью жены x?» — предлагая конструкции как с цепочкой рассуждений, так и без неё, демонстрирующие доказуемый компромисс ёмкости и глубины, дополненный соответствующей информационно-теоретической нижней границей. Эмпирически градиентный спуск обнаруживает решения именно с предсказанной структурой. После обучения MLP переносится без дополнительного обучения (zero-shot) на совершенно новые биекции при соответствующей переинициализации субъектных встраиваний, что раскрывает: он выучил универсальный механизм выбора, а не запомнил какой-либо конкретный набор фактов.

English

How do transformer language models memorize factual associations? A common view casts internal weight matrices as associative memories over pairs of embeddings, requiring parameter counts that scale linearly with the number of facts. We develop a theoretical and empirical account of an alternative, geometric form of memorization in which learned embeddings encode relational structure directly, and the MLP plays a qualitatively different role. In a controlled setting where a single-layer transformer must memorize random bijections from subjects to a shared attribute set, we prove that a logarithmic embedding dimension suffices: subject embeddings encode linear superpositions of their associated attribute vectors, and a small MLP acts as a relation-conditioned selector that extracts the relevant attribute via ReLU gating, and not as an associative key-value mapping. We extend these results to the multi-hop setting -- chains of relational queries such as ``Who is the mother of the wife of x?'' -- providing constructions with and without chain-of-thought that exhibit a provable capacity-depth tradeoff, complemented by a matching information-theoretic lower bound. Empirically, gradient descent discovers solutions with precisely the predicted structure. Once trained, the MLP transfers zero-shot to entirely new bijections when subject embeddings are appropriately re-initialized, revealing that it has learned a generic selection mechanism rather than memorized any particular set of facts.

Геометрическое воспроизведение фактов в трансформерах

Geometric Factual Recall in Transformers

Аннотация

Support