ICL CIPHERS: Het kwantificeren van "leren" in in-context leren via substitutiecijfers
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers
April 28, 2025
Auteurs: Zhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi
cs.AI
Samenvatting
Recente studies hebben gesuggereerd dat In-Context Learning (ICL) in twee modi opereert, namelijk taakretrieval (het onthouden van geleerde patronen uit pre-training) en taakleren (het "leren" tijdens inferentie aan de hand van demonstraties). Het ontrafelen van deze twee modi blijft echter een uitdagend doel. Wij introduceren ICL CIPHERS, een klasse van taakherformuleringen gebaseerd op substitutiecijfers ontleend aan klassieke cryptografie. In deze aanpak wordt een subset van tokens in de in-context invoer vervangen door andere (irrelevante) tokens, waardoor Engelse zinnen minder begrijpelijk worden voor het menselijk oog. Echter, door het ontwerp is er een latent, vast patroon aan deze substitutie, waardoor deze omkeerbaar is. Deze bijectieve (omkeerbare) cijfering zorgt ervoor dat de taak in abstracte zin een goed gedefinieerde taak blijft, ondanks de transformaties. Het is een interessante vraag of LLM's ICL CIPHERS met een BIJECTIEVE mapping kunnen oplossen, wat het ontcijferen van de latente cijfering vereist. Wij tonen aan dat LLM's beter zijn in het oplossen van ICL CIPHERS met BIJECTIEVE mappings dan de NON-BIJECTIEVE (onomkeerbare) baseline, wat een nieuwe benadering biedt om "leren" in ICL te kwantificeren. Hoewel dit verschil klein is, is het consistent over vier datasets en zes modellen. Ten slotte onderzoeken we de interne representaties van LLM's en identificeren we bewijs van hun vermogen om de gecodeerde invoer te decoderen.
English
Recent works have suggested that In-Context Learning (ICL) operates in dual
modes, i.e. task retrieval (remember learned patterns from pre-training) and
task learning (inference-time ``learning'' from demonstrations). However,
disentangling these the two modes remains a challenging goal. We introduce ICL
CIPHERS, a class of task reformulations based on substitution ciphers borrowed
from classic cryptography. In this approach, a subset of tokens in the
in-context inputs are substituted with other (irrelevant) tokens, rendering
English sentences less comprehensible to human eye. However, by design, there
is a latent, fixed pattern to this substitution, making it reversible. This
bijective (reversible) cipher ensures that the task remains a well-defined task
in some abstract sense, despite the transformations. It is a curious question
if LLMs can solve ICL CIPHERS with a BIJECTIVE mapping, which requires
deciphering the latent cipher. We show that LLMs are better at solving ICL
CIPHERS with BIJECTIVE mappings than the NON-BIJECTIVE (irreversible) baseline,
providing a novel approach to quantify ``learning'' in ICL. While this gap is
small, it is consistent across the board on four datasets and six models.
Finally, we examine LLMs' internal representations and identify evidence in
their ability to decode the ciphered inputs.Summary
AI-Generated Summary