ICL CIPHERS: Количественная оценка "обучения" в контекстном обучении с использованием подстановочных шифров
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers
April 28, 2025
Авторы: Zhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi
cs.AI
Аннотация
Недавние исследования предположили, что обучение в контексте (In-Context Learning, ICL) функционирует в двух режимах: извлечение задачи (вспоминание изученных паттернов из предварительного обучения) и обучение задаче (обучение на демонстрациях во время вывода). Однако разделение этих двух режимов остается сложной задачей. Мы представляем ICL CIPHERS — класс реформулировок задач, основанных на подстановочных шифрах, заимствованных из классической криптографии. В этом подходе подмножество токенов во входных данных в контексте заменяется другими (нерелевантными) токенами, делая английские предложения менее понятными для человеческого глаза. Однако по замыслу существует скрытый, фиксированный паттерн этой замены, делающий её обратимой. Этот биективный (обратимый) шифр гарантирует, что задача остается четко определенной в некотором абстрактном смысле, несмотря на преобразования. Интересный вопрос заключается в том, могут ли крупные языковые модели (LLM) решать ICL CIPHERS с биективным отображением, что требует расшифровки скрытого шифра. Мы показываем, что LLM лучше справляются с ICL CIPHERS с биективными отображениями, чем с небиективными (необратимыми) базовыми вариантами, что предоставляет новый подход к количественной оценке «обучения» в ICL. Хотя этот разрыв невелик, он последовательно наблюдается на четырех наборах данных и шести моделях. Наконец, мы исследуем внутренние представления LLM и находим доказательства их способности декодировать зашифрованные входные данные.
English
Recent works have suggested that In-Context Learning (ICL) operates in dual
modes, i.e. task retrieval (remember learned patterns from pre-training) and
task learning (inference-time ``learning'' from demonstrations). However,
disentangling these the two modes remains a challenging goal. We introduce ICL
CIPHERS, a class of task reformulations based on substitution ciphers borrowed
from classic cryptography. In this approach, a subset of tokens in the
in-context inputs are substituted with other (irrelevant) tokens, rendering
English sentences less comprehensible to human eye. However, by design, there
is a latent, fixed pattern to this substitution, making it reversible. This
bijective (reversible) cipher ensures that the task remains a well-defined task
in some abstract sense, despite the transformations. It is a curious question
if LLMs can solve ICL CIPHERS with a BIJECTIVE mapping, which requires
deciphering the latent cipher. We show that LLMs are better at solving ICL
CIPHERS with BIJECTIVE mappings than the NON-BIJECTIVE (irreversible) baseline,
providing a novel approach to quantify ``learning'' in ICL. While this gap is
small, it is consistent across the board on four datasets and six models.
Finally, we examine LLMs' internal representations and identify evidence in
their ability to decode the ciphered inputs.Summary
AI-Generated Summary