ICL CIPHERS : Quantification de l'"Apprentissage" dans l'Apprentissage en Contexte via des Chiffres par Substitution
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers
April 28, 2025
Auteurs: Zhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi
cs.AI
Résumé
Les travaux récents suggèrent que l'apprentissage en contexte (In-Context Learning, ICL) fonctionne selon deux modes distincts : la récupération de tâches (rappel des motifs appris lors du pré-entraînement) et l'apprentissage de tâches (« apprentissage » au moment de l'inférence à partir de démonstrations). Cependant, séparer ces deux modes reste un objectif difficile à atteindre. Nous introduisons ICL CIPHERS, une classe de reformulations de tâches basées sur des chiffrements par substitution empruntés à la cryptographie classique. Dans cette approche, un sous-ensemble de tokens dans les entrées en contexte est remplacé par d'autres tokens (sans rapport), rendant les phrases en anglais moins compréhensibles à l'œil humain. Cependant, par conception, il existe un motif latent et fixe à cette substitution, la rendant réversible. Ce chiffrement bijectif (réversible) garantit que la tâche reste bien définie dans un sens abstrait, malgré les transformations. Il est intéressant de se demander si les modèles de langage (LLMs) peuvent résoudre ICL CIPHERS avec une application BIJECTIVE, ce qui nécessite de décrypter le chiffrement latent. Nous montrons que les LLMs sont plus performants pour résoudre ICL CIPHERS avec des applications BIJECTIVES que la ligne de base NON-BIJECTIVE (irréversible), offrant ainsi une nouvelle approche pour quantifier « l'apprentissage » dans ICL. Bien que cet écart soit faible, il est cohérent sur quatre jeux de données et six modèles. Enfin, nous examinons les représentations internes des LLMs et identifions des preuves de leur capacité à décoder les entrées chiffrées.
English
Recent works have suggested that In-Context Learning (ICL) operates in dual
modes, i.e. task retrieval (remember learned patterns from pre-training) and
task learning (inference-time ``learning'' from demonstrations). However,
disentangling these the two modes remains a challenging goal. We introduce ICL
CIPHERS, a class of task reformulations based on substitution ciphers borrowed
from classic cryptography. In this approach, a subset of tokens in the
in-context inputs are substituted with other (irrelevant) tokens, rendering
English sentences less comprehensible to human eye. However, by design, there
is a latent, fixed pattern to this substitution, making it reversible. This
bijective (reversible) cipher ensures that the task remains a well-defined task
in some abstract sense, despite the transformations. It is a curious question
if LLMs can solve ICL CIPHERS with a BIJECTIVE mapping, which requires
deciphering the latent cipher. We show that LLMs are better at solving ICL
CIPHERS with BIJECTIVE mappings than the NON-BIJECTIVE (irreversible) baseline,
providing a novel approach to quantify ``learning'' in ICL. While this gap is
small, it is consistent across the board on four datasets and six models.
Finally, we examine LLMs' internal representations and identify evidence in
their ability to decode the ciphered inputs.Summary
AI-Generated Summary