LLM-Microscope: Svelare il Ruolo Nascosto della Punteggiatura nella Memoria Contestuale dei TrasformatoriLLM-Microscope: Uncovering the Hidden Role of Punctuation in Context
Memory of Transformers
Introduciamo metodi per quantificare come i Large Language Model (LLM) codificano e memorizzano le informazioni contestuali, rivelando che token spesso considerati minori (ad esempio, determinanti, punteggiatura) trasportano un contesto sorprendentemente elevato. In particolare, la rimozione di questi token — specialmente stopword, articoli e virgole — degrada costantemente le prestazioni su MMLU e BABILong-4k, anche se vengono rimossi solo token irrilevanti. La nostra analisi mostra inoltre una forte correlazione tra contestualizzazione e linearità, dove la linearità misura quanto strettamente la trasformazione dagli embedding di uno strato a quello successivo possa essere approssimata da una singola mappatura lineare. Questi risultati sottolineano l'importanza nascosta dei token di riempimento nel mantenimento del contesto. Per ulteriori esplorazioni, presentiamo LLM-Microscope, un toolkit open-source che valuta la non linearità a livello di token, valuta la memoria contestuale, visualizza i contributi degli strati intermedi (tramite un Logit Lens adattato) e misura la dimensionalità intrinseca delle rappresentazioni. Questo toolkit illumina come token apparentemente banali possano essere critici per la comprensione a lungo raggio.