ICL CIPHERS : Quantification de l'"Apprentissage" dans l'Apprentissage en Contexte via des Chiffres par Substitution

papers.abstract

Les travaux récents suggèrent que l'apprentissage en contexte (In-Context Learning, ICL) fonctionne selon deux modes distincts : la récupération de tâches (rappel des motifs appris lors du pré-entraînement) et l'apprentissage de tâches (« apprentissage » au moment de l'inférence à partir de démonstrations). Cependant, séparer ces deux modes reste un objectif difficile à atteindre. Nous introduisons ICL CIPHERS, une classe de reformulations de tâches basées sur des chiffrements par substitution empruntés à la cryptographie classique. Dans cette approche, un sous-ensemble de tokens dans les entrées en contexte est remplacé par d'autres tokens (sans rapport), rendant les phrases en anglais moins compréhensibles à l'œil humain. Cependant, par conception, il existe un motif latent et fixe à cette substitution, la rendant réversible. Ce chiffrement bijectif (réversible) garantit que la tâche reste bien définie dans un sens abstrait, malgré les transformations. Il est intéressant de se demander si les modèles de langage (LLMs) peuvent résoudre ICL CIPHERS avec une application BIJECTIVE, ce qui nécessite de décrypter le chiffrement latent. Nous montrons que les LLMs sont plus performants pour résoudre ICL CIPHERS avec des applications BIJECTIVES que la ligne de base NON-BIJECTIVE (irréversible), offrant ainsi une nouvelle approche pour quantifier « l'apprentissage » dans ICL. Bien que cet écart soit faible, il est cohérent sur quatre jeux de données et six modèles. Enfin, nous examinons les représentations internes des LLMs et identifions des preuves de leur capacité à décoder les entrées chiffrées.

English

Recent works have suggested that In-Context Learning (ICL) operates in dual modes, i.e. task retrieval (remember learned patterns from pre-training) and task learning (inference-time ``learning'' from demonstrations). However, disentangling these the two modes remains a challenging goal. We introduce ICL CIPHERS, a class of task reformulations based on substitution ciphers borrowed from classic cryptography. In this approach, a subset of tokens in the in-context inputs are substituted with other (irrelevant) tokens, rendering English sentences less comprehensible to human eye. However, by design, there is a latent, fixed pattern to this substitution, making it reversible. This bijective (reversible) cipher ensures that the task remains a well-defined task in some abstract sense, despite the transformations. It is a curious question if LLMs can solve ICL CIPHERS with a BIJECTIVE mapping, which requires deciphering the latent cipher. We show that LLMs are better at solving ICL CIPHERS with BIJECTIVE mappings than the NON-BIJECTIVE (irreversible) baseline, providing a novel approach to quantify ``learning'' in ICL. While this gap is small, it is consistent across the board on four datasets and six models. Finally, we examine LLMs' internal representations and identify evidence in their ability to decode the ciphered inputs.

ICL CIPHERS : Quantification de l'"Apprentissage" dans l'Apprentissage en Contexte via des Chiffres par Substitution

ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers

papers.abstract

Support