Desmitificando cuándo funciona la poda mediante jerarquías de representación

Resumen

La poda de redes, que elimina parámetros o arquitecturas menos importantes, suele esperarse que mejore la eficiencia preservando el rendimiento. Sin embargo, esta expectativa no se mantiene consistentemente en las tareas lingüísticas: los modelos podados pueden desempeñarse bien en tareas no generativas, pero frecuentemente fallan en entornos generativos. Para comprender esta discrepancia, analizamos la poda de redes desde una perspectiva de jerarquía de representaciones, descomponiendo el cálculo interno de los modelos lingüísticos en tres espacios secuenciales: embedding (representaciones ocultas), logit (salidas pre-softmax) y probabilidad (distribuciones post-softmax). Encontramos que las representaciones en los espacios de embedding y logit son mayormente robustas a las perturbaciones inducidas por la poda. No obstante, la transformación no lineal de logits a probabilidades amplifica estas desviaciones, que se acumulan a lo largo de los pasos temporales y conducen a una degradación sustancial durante la generación. Por el contrario, la estabilidad del subespacio de probabilidad de tokens categóricos, junto con la robustez del espacio de embedding, respalda la efectividad de la poda para tareas no generativas como recuperación y selección de opción múltiple. Nuestro análisis desentraña los efectos de la poda entre tareas y proporciona orientación práctica para su aplicación. El código está disponible en https://github.com/CASE-Lab-UMD/Pruning-on-Representations.

English

Network pruning, which removes less important parameters or architectures, is often expected to improve efficiency while preserving performance. However, this expectation does not consistently hold across language tasks: pruned models can perform well on non-generative tasks but frequently fail in generative settings. To understand this discrepancy, we analyze network pruning from a representation-hierarchy perspective, decomposing the internal computation of language models into three sequential spaces: embedding (hidden representations), logit (pre-softmax outputs), and probability (post-softmax distributions). We find that representations in the embedding and logit spaces are largely robust to pruning-induced perturbations. However, the nonlinear transformation from logits to probabilities amplifies these deviations, which accumulate across time steps and lead to substantial degradation during generation. In contrast, the stability of the categorical-token probability subspace, together with the robustness of the embedding space, supports the effectiveness of pruning for non-generative tasks such as retrieval and multiple-choice selection. Our analysis disentangles the effects of pruning across tasks and provides practical guidance for its application. Code is available at https://github.com/CASE-Lab-UMD/Pruning-on-Representations

Desmitificando cuándo funciona la poda mediante jerarquías de representación

Demystifying When Pruning Works via Representation Hierarchies

Resumen

Support