ICL CIPHERS: Quantifizierung des „Lernens“ beim In-Context-Lernen durch Substitutionschiffren
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers
April 28, 2025
Autoren: Zhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi
cs.AI
Zusammenfassung
Aktuelle Arbeiten deuten darauf hin, dass In-Context Learning (ICL) in zwei Modi operiert: Task Retrieval (das Abrufen gelerntem Muster aus dem Pre-Training) und Task Learning (das „Lernen“ zur Inferenzzeit anhand von Demonstrationen). Die Entflechtung dieser beiden Modi bleibt jedoch ein herausforderndes Ziel. Wir stellen ICL CIPHERS vor, eine Klasse von Aufgabenreformulierungen, die auf Substitutionschiffren aus der klassischen Kryptografie basieren. Bei diesem Ansatz wird eine Teilmenge der Tokens in den In-Context-Eingaben durch andere (irrelevante) Tokens ersetzt, wodurch englische Sätze für das menschliche Auge weniger verständlich werden. Durch das Design gibt es jedoch ein latentes, festes Muster für diese Substitution, das sie umkehrbar macht. Diese bijektive (umkehrbare) Chiffre stellt sicher, dass die Aufgabe in einem abstrakten Sinne weiterhin eine wohldefinierte Aufgabe bleibt, trotz der Transformationen. Es ist eine interessante Frage, ob LLMs ICL CIPHERS mit einer BIJEKTIVEN Abbildung lösen können, was das Entschlüsseln der latenten Chiffre erfordert. Wir zeigen, dass LLMs besser darin sind, ICL CIPHERS mit BIJEKTIVEN Abbildungen zu lösen als die NON-BIJEKTIVE (nicht umkehrbare) Baseline, was einen neuartigen Ansatz zur Quantifizierung des „Lernens“ in ICL bietet. Obwohl diese Lücke klein ist, ist sie konsistent über vier Datensätze und sechs Modelle hinweg. Schließlich untersuchen wir die internen Repräsentationen von LLMs und identifizieren Hinweise auf ihre Fähigkeit, die verschlüsselten Eingaben zu dekodieren.
English
Recent works have suggested that In-Context Learning (ICL) operates in dual
modes, i.e. task retrieval (remember learned patterns from pre-training) and
task learning (inference-time ``learning'' from demonstrations). However,
disentangling these the two modes remains a challenging goal. We introduce ICL
CIPHERS, a class of task reformulations based on substitution ciphers borrowed
from classic cryptography. In this approach, a subset of tokens in the
in-context inputs are substituted with other (irrelevant) tokens, rendering
English sentences less comprehensible to human eye. However, by design, there
is a latent, fixed pattern to this substitution, making it reversible. This
bijective (reversible) cipher ensures that the task remains a well-defined task
in some abstract sense, despite the transformations. It is a curious question
if LLMs can solve ICL CIPHERS with a BIJECTIVE mapping, which requires
deciphering the latent cipher. We show that LLMs are better at solving ICL
CIPHERS with BIJECTIVE mappings than the NON-BIJECTIVE (irreversible) baseline,
providing a novel approach to quantify ``learning'' in ICL. While this gap is
small, it is consistent across the board on four datasets and six models.
Finally, we examine LLMs' internal representations and identify evidence in
their ability to decode the ciphered inputs.Summary
AI-Generated Summary