Analyseer Functiestroom om Interpretatie en Sturing in Taalmodellen te VerbeterenAnalyze Feature Flow to Enhance Interpretation and Steering in Language
Models
We introduceren een nieuwe aanpak om systematisch kenmerken in kaart te brengen die ontdekt zijn door schaarse auto-encoder over opeenvolgende lagen van grote taalmodellen, waarbij eerder werk wordt uitgebreid dat inter-laag kenmerkverbindingen onderzocht. Door gebruik te maken van een data-vrije cosinusgelijkheidstechniek, traceren we hoe specifieke kenmerken aanhouden, veranderen of voor het eerst verschijnen in elke fase. Deze methode levert gedetailleerde stroomdiagrammen van kenmerkevolutie op, waardoor fijnkorrelige interpreteerbaarheid en mechanistische inzichten in modelberekeningen mogelijk worden. Cruciaal is dat we aantonen hoe deze cross-laag kenmerkkaarten directe sturing van modelgedrag mogelijk maken door gekozen kenmerken te versterken of te onderdrukken, waardoor gerichte thematische controle wordt bereikt in tekstgeneratie. Samen benadrukken onze bevindingen het nut van een causaal, cross-laag interpreteerbaarheidskader dat niet alleen verduidelijkt hoe kenmerken zich ontwikkelen via voorwaartse passes, maar ook nieuwe middelen biedt voor transparante manipulatie van grote taalmodellen.