프루닝이 작동하는 시점을 표현 계층 구조를 통해 규명하기
Demystifying When Pruning Works via Representation Hierarchies
April 6, 2026
저자: Shwai He, Guoheng Sun, Haichao Zhang, Yun Fu, Ang Li
cs.AI
초록
네트워크 가지치기는 중요도가 낮은 매개변수나 구조를 제거함으로써 성능을 유지하면서 효율성을 향상시키는 방법으로 알려져 있습니다. 그러나 이러한 기대는 언어 작업 전반에 걸쳐 일관되게 적용되지 않습니다: 가지치기된 모델은 비생성적 작업에서는 우수한 성능을 보이지만, 생성적 환경에서는 종종 실패합니다. 이러한 차이를 이해하기 위해 우리는 네트워크 가지치기를 표현 계층적 관점에서 분석하며, 언어 모델의 내부 연산을 세 가지 순차적 공간으로 분해합니다: 임베딩(은닉 표현), 로짓(소프트맥스 이전 출력), 확률(소프트맥스 이후 분포). 우리는 임베딩과 로짓 공간의 표현이 가지치기로 인한 섭동에 대해 상당히 강건함을 발견했습니다. 그러나 로짓에서 확률로의 비선형 변환이 이러한 편차를 증폭시키며, 이는 시간 단계에 걸쳐 누적되어 생성 과정에서 상당한 성능 저하를 초래합니다. 반면, 범주형 토큰 확률 부분공간의 안정성과 임베딩 공간의 강건성은 검색 및 다중 선택과 같은 비생성적 작업에서 가지치기의 효과를 뒷받침합니다. 우리의 분석은 작업별 가지치기의 영향을 분리하고 실제 적용을 위한 실용적인 지침을 제공합니다. 코드는 https://github.com/CASE-Lab-UMD/Pruning-on-Representations에서 확인할 수 있습니다.
English
Network pruning, which removes less important parameters or architectures, is often expected to improve efficiency while preserving performance. However, this expectation does not consistently hold across language tasks: pruned models can perform well on non-generative tasks but frequently fail in generative settings. To understand this discrepancy, we analyze network pruning from a representation-hierarchy perspective, decomposing the internal computation of language models into three sequential spaces: embedding (hidden representations), logit (pre-softmax outputs), and probability (post-softmax distributions). We find that representations in the embedding and logit spaces are largely robust to pruning-induced perturbations. However, the nonlinear transformation from logits to probabilities amplifies these deviations, which accumulate across time steps and lead to substantial degradation during generation. In contrast, the stability of the categorical-token probability subspace, together with the robustness of the embedding space, supports the effectiveness of pruning for non-generative tasks such as retrieval and multiple-choice selection. Our analysis disentangles the effects of pruning across tasks and provides practical guidance for its application. Code is available at https://github.com/CASE-Lab-UMD/Pruning-on-Representations