ChatPaper.aiChatPaper

ICL CIPHERS: Quantificare l'"Apprendimento" nell'Apprendimento In-Contesto attraverso Cifrari a Sostituzione

ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers

April 28, 2025
Autori: Zhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi
cs.AI

Abstract

Recenti lavori hanno suggerito che l'In-Context Learning (ICL) opera in modalità duali, ovvero il recupero del compito (ricordare schemi appresi durante il pre-training) e l'apprendimento del compito (``apprendimento'' al momento dell'inferenza a partire da dimostrazioni). Tuttavia, separare queste due modalità rimane un obiettivo impegnativo. Introduciamo ICL CIPHERS, una classe di riformulazioni di compiti basate su cifrari a sostituzione mutuati dalla crittografia classica. In questo approccio, un sottoinsieme di token negli input in-context viene sostituito con altri token (irrilevanti), rendendo le frasi in inglese meno comprensibili all'occhio umano. Tuttavia, per progettazione, esiste uno schema latente e fisso per questa sostituzione, rendendola reversibile. Questo cifrario biiettivo (reversibile) garantisce che il compito rimanga un'attività ben definita in senso astratto, nonostante le trasformazioni. È una questione curiosa se i modelli linguistici di grandi dimensioni (LLM) possano risolvere ICL CIPHERS con una mappatura BIETTIVA, che richiede di decifrare il cifrario latente. Mostriamo che gli LLM sono più bravi a risolvere ICL CIPHERS con mappature BIETTIVE rispetto alla baseline NON-BIETTIVA (irreversibile), fornendo un approccio innovativo per quantificare l'``apprendimento'' nell'ICL. Sebbene questo divario sia piccolo, è coerente su quattro dataset e sei modelli. Infine, esaminiamo le rappresentazioni interne degli LLM e identifichiamo prove della loro capacità di decodificare gli input cifrati.
English
Recent works have suggested that In-Context Learning (ICL) operates in dual modes, i.e. task retrieval (remember learned patterns from pre-training) and task learning (inference-time ``learning'' from demonstrations). However, disentangling these the two modes remains a challenging goal. We introduce ICL CIPHERS, a class of task reformulations based on substitution ciphers borrowed from classic cryptography. In this approach, a subset of tokens in the in-context inputs are substituted with other (irrelevant) tokens, rendering English sentences less comprehensible to human eye. However, by design, there is a latent, fixed pattern to this substitution, making it reversible. This bijective (reversible) cipher ensures that the task remains a well-defined task in some abstract sense, despite the transformations. It is a curious question if LLMs can solve ICL CIPHERS with a BIJECTIVE mapping, which requires deciphering the latent cipher. We show that LLMs are better at solving ICL CIPHERS with BIJECTIVE mappings than the NON-BIJECTIVE (irreversible) baseline, providing a novel approach to quantify ``learning'' in ICL. While this gap is small, it is consistent across the board on four datasets and six models. Finally, we examine LLMs' internal representations and identify evidence in their ability to decode the ciphered inputs.

Summary

AI-Generated Summary

PDF32April 29, 2025