Содействовать, подавлять, итерировать: как языковые модели отвечают на однозначные и многозначные фактологические запросы

Аннотация

Для ответа на фактологические запросы типа "один ко многим" (например, перечисление городов страны) языковая модель (LM) должна одновременно извлекать знания и избегать повторения ранее данных ответов. Как эти две подзадачи реализованы и интегрированы внутри модели? На основе анализа нескольких наборов данных и моделей мы выявили механизм "продвижение-затем-подавление": модель сначала извлекает все возможные ответы, а затем подавляет уже сгенерированные. В частности, языковые модели используют как субъект запроса, так и токены предыдущих ответов для извлечения знаний, где механизм внимания распространяет информацию о субъекте, а многослойные перцептроны (MLP) способствуют активации ответов. Затем внимание фокусируется на токенах предыдущих ответов и подавляет их, в то время как MLP усиливают сигнал подавления. Наш механизм подтверждается обширными экспериментальными данными: помимо использования раннего декодирования и причинного трассирования, мы анализируем, как компоненты модели используют различные токены, вводя как Token Lens, который декодирует агрегированные обновления внимания от указанных токенов, так и метод "нокаута", который анализирует изменения в выходах MLP после удаления внимания к указанным токенам. В целом, мы предоставляем новые инсайты о том, как внутренние компоненты языковых моделей взаимодействуют с различными входными токенами для поддержки сложного фактологического извлечения. Код доступен по адресу https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

English

To answer one-to-many factual queries (e.g., listing cities of a country), a language model (LM) must simultaneously recall knowledge and avoid repeating previous answers. How are these two subtasks implemented and integrated internally? Across multiple datasets and models, we identify a promote-then-suppress mechanism: the model first recalls all answers, and then suppresses previously generated ones. Specifically, LMs use both the subject and previous answer tokens to perform knowledge recall, with attention propagating subject information and MLPs promoting the answers. Then, attention attends to and suppresses previous answer tokens, while MLPs amplify the suppression signal. Our mechanism is corroborated by extensive experimental evidence: in addition to using early decoding and causal tracing, we analyze how components use different tokens by introducing both Token Lens, which decodes aggregated attention updates from specified tokens, and a knockout method that analyzes changes in MLP outputs after removing attention to specified tokens. Overall, we provide new insights into how LMs' internal components interact with different input tokens to support complex factual recall. Code is available at https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

Содействовать, подавлять, итерировать: как языковые модели отвечают на однозначные и многозначные фактологические запросы

Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

Аннотация

Support