ChatPaper.aiChatPaper

Analisi del flusso delle caratteristiche per migliorare l'interpretazione e il controllo nei modelli linguistici.

Analyze Feature Flow to Enhance Interpretation and Steering in Language Models

February 5, 2025
Autori: Daniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov
cs.AI

Abstract

Introduciamo un nuovo approccio per mappare sistematicamente le caratteristiche scoperte da autoencoder sparsi attraverso strati consecutivi di grandi modelli linguistici, estendendo lavori precedenti che hanno esaminato i collegamenti tra le caratteristiche tra strati. Utilizzando una tecnica di similarità coseno senza dati, tracciamo come specifiche caratteristiche persistono, si trasformano o appaiono per la prima volta in ciascuna fase. Questo metodo produce grafici dettagliati sull'evoluzione delle caratteristiche, consentendo un'interpretazione dettagliata e approfondimenti meccanicistici sui calcoli del modello. In modo cruciale, dimostriamo come queste mappe delle caratteristiche tra strati facilitino il controllo diretto del comportamento del modello amplificando o sopprimendo le caratteristiche scelte, ottenendo un controllo tematico mirato nella generazione di testo. Complessivamente, le nostre scoperte evidenziano l'utilità di un quadro di interpretabilità causale tra strati che non solo chiarisce come le caratteristiche si sviluppano attraverso i passaggi in avanti, ma fornisce anche nuovi mezzi per la manipolazione trasparente dei grandi modelli linguistici.
English
We introduce a new approach to systematically map features discovered by sparse autoencoder across consecutive layers of large language models, extending earlier work that examined inter-layer feature links. By using a data-free cosine similarity technique, we trace how specific features persist, transform, or first appear at each stage. This method yields granular flow graphs of feature evolution, enabling fine-grained interpretability and mechanistic insights into model computations. Crucially, we demonstrate how these cross-layer feature maps facilitate direct steering of model behavior by amplifying or suppressing chosen features, achieving targeted thematic control in text generation. Together, our findings highlight the utility of a causal, cross-layer interpretability framework that not only clarifies how features develop through forward passes but also provides new means for transparent manipulation of large language models.

Summary

AI-Generated Summary

PDF602February 7, 2025