ICL CIPHERS: Quantificando o "Aprendizado" na Aprendizagem em Contexto por meio de Cifras de Substituição
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers
April 28, 2025
Autores: Zhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi
cs.AI
Resumo
Trabalhos recentes sugerem que o Aprendizado em Contexto (ICL, na sigla em inglês) opera em modos duais, ou seja, recuperação de tarefas (lembrar padrões aprendidos durante o pré-treinamento) e aprendizado de tarefas ("aprendizado" durante a inferência a partir de demonstrações). No entanto, separar esses dois modos continua sendo um objetivo desafiador. Apresentamos o ICL CIPHERS, uma classe de reformulações de tarefas baseadas em cifras de substituição emprestadas da criptografia clássica. Nessa abordagem, um subconjunto de tokens nas entradas em contexto é substituído por outros tokens (irrelevantes), tornando as frases em inglês menos compreensíveis ao olho humano. No entanto, por design, há um padrão latente e fixo para essa substituição, tornando-a reversível. Essa cifra bijetiva (reversível) garante que a tarefa permaneça bem definida em algum sentido abstrato, apesar das transformações. É uma questão curiosa saber se os LLMs (Modelos de Linguagem de Grande Escala) podem resolver o ICL CIPHERS com um mapeamento BIJETIVO, o que requer decifrar a cifra latente. Mostramos que os LLMs são melhores em resolver o ICL CIPHERS com mapeamentos BIJETIVOS do que a linha de base NÃO-BIJETIVA (irreversível), fornecendo uma abordagem nova para quantificar o "aprendizado" no ICL. Embora essa diferença seja pequena, ela é consistente em quatro conjuntos de dados e seis modelos. Por fim, examinamos as representações internas dos LLMs e identificamos evidências de sua capacidade de decodificar as entradas cifradas.
English
Recent works have suggested that In-Context Learning (ICL) operates in dual
modes, i.e. task retrieval (remember learned patterns from pre-training) and
task learning (inference-time ``learning'' from demonstrations). However,
disentangling these the two modes remains a challenging goal. We introduce ICL
CIPHERS, a class of task reformulations based on substitution ciphers borrowed
from classic cryptography. In this approach, a subset of tokens in the
in-context inputs are substituted with other (irrelevant) tokens, rendering
English sentences less comprehensible to human eye. However, by design, there
is a latent, fixed pattern to this substitution, making it reversible. This
bijective (reversible) cipher ensures that the task remains a well-defined task
in some abstract sense, despite the transformations. It is a curious question
if LLMs can solve ICL CIPHERS with a BIJECTIVE mapping, which requires
deciphering the latent cipher. We show that LLMs are better at solving ICL
CIPHERS with BIJECTIVE mappings than the NON-BIJECTIVE (irreversible) baseline,
providing a novel approach to quantify ``learning'' in ICL. While this gap is
small, it is consistent across the board on four datasets and six models.
Finally, we examine LLMs' internal representations and identify evidence in
their ability to decode the ciphered inputs.