分析特徵流以增強語言模型中的解釋和控制。Analyze Feature Flow to Enhance Interpretation and Steering in Language
Models
我們提出了一種新方法,用於系統性地映射稀疏自編碼器在大型語言模型的連續層中發現的特徵,擴展了早期研究,該研究檢驗了層間特徵連結。通過使用無數據餵入的餘弦相似度技術,我們追蹤特定特徵在每個階段的持續性、轉換或首次出現方式。這種方法產生了特徵演變的細粒度流程圖,實現了細緻的可解釋性,並深入了解模型計算的機制。至關重要的是,我們展示了這些跨層特徵映射如何促進通過放大或抑制選定特徵來直接引導模型行為,實現文本生成中的有針對性主題控制。總的來說,我們的發現突顯了一種因果、跨層可解釋性框架的實用性,不僅澄清了特徵如何通過前向傳遞進行發展,還提供了大型語言模型透明操作的新手段。