ICL CIPHERS: Het kwantificeren van "leren" in in-context leren via substitutiecijfers

Samenvatting

Recente studies hebben gesuggereerd dat In-Context Learning (ICL) in twee modi opereert, namelijk taakretrieval (het onthouden van geleerde patronen uit pre-training) en taakleren (het "leren" tijdens inferentie aan de hand van demonstraties). Het ontrafelen van deze twee modi blijft echter een uitdagend doel. Wij introduceren ICL CIPHERS, een klasse van taakherformuleringen gebaseerd op substitutiecijfers ontleend aan klassieke cryptografie. In deze aanpak wordt een subset van tokens in de in-context invoer vervangen door andere (irrelevante) tokens, waardoor Engelse zinnen minder begrijpelijk worden voor het menselijk oog. Echter, door het ontwerp is er een latent, vast patroon aan deze substitutie, waardoor deze omkeerbaar is. Deze bijectieve (omkeerbare) cijfering zorgt ervoor dat de taak in abstracte zin een goed gedefinieerde taak blijft, ondanks de transformaties. Het is een interessante vraag of LLM's ICL CIPHERS met een BIJECTIEVE mapping kunnen oplossen, wat het ontcijferen van de latente cijfering vereist. Wij tonen aan dat LLM's beter zijn in het oplossen van ICL CIPHERS met BIJECTIEVE mappings dan de NON-BIJECTIEVE (onomkeerbare) baseline, wat een nieuwe benadering biedt om "leren" in ICL te kwantificeren. Hoewel dit verschil klein is, is het consistent over vier datasets en zes modellen. Ten slotte onderzoeken we de interne representaties van LLM's en identificeren we bewijs van hun vermogen om de gecodeerde invoer te decoderen.

English

Recent works have suggested that In-Context Learning (ICL) operates in dual modes, i.e. task retrieval (remember learned patterns from pre-training) and task learning (inference-time ``learning'' from demonstrations). However, disentangling these the two modes remains a challenging goal. We introduce ICL CIPHERS, a class of task reformulations based on substitution ciphers borrowed from classic cryptography. In this approach, a subset of tokens in the in-context inputs are substituted with other (irrelevant) tokens, rendering English sentences less comprehensible to human eye. However, by design, there is a latent, fixed pattern to this substitution, making it reversible. This bijective (reversible) cipher ensures that the task remains a well-defined task in some abstract sense, despite the transformations. It is a curious question if LLMs can solve ICL CIPHERS with a BIJECTIVE mapping, which requires deciphering the latent cipher. We show that LLMs are better at solving ICL CIPHERS with BIJECTIVE mappings than the NON-BIJECTIVE (irreversible) baseline, providing a novel approach to quantify ``learning'' in ICL. While this gap is small, it is consistent across the board on four datasets and six models. Finally, we examine LLMs' internal representations and identify evidence in their ability to decode the ciphered inputs.

ICL CIPHERS: Het kwantificeren van "leren" in in-context leren via substitutiecijfers

ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers

Samenvatting

Summary

Support

Support