GAPrune: Potatura basata su Allineamento del Gradiente per Embedding Consapevoli del Dominio
GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings
September 13, 2025
Autori: Yixuan Tang, Yi Yang
cs.AI
Abstract
I modelli di embedding specifici per dominio hanno dimostrato potenziale per applicazioni che richiedono una comprensione semantica specializzata, come agenti di programmazione e sistemi di recupero finanziario, spesso ottenendo miglioramenti prestazionali superiori rispetto ai modelli generali. Tuttavia, i modelli di embedding all'avanguardia sono tipicamente basati su LLM, che contengono miliardi di parametri, rendendo difficile il deployment in ambienti con risorse limitate. La compressione del modello attraverso il pruning offre una soluzione promettente, ma i metodi di pruning esistenti trattano tutti i parametri in modo uniforme, senza distinguere tra rappresentazioni semantiche generali e pattern specifici del dominio, portando a decisioni di pruning subottimali. Pertanto, proponiamo GAPrune, un framework di pruning che affronta questa sfida considerando sia l'importanza del dominio che la preservazione delle fondamenta linguistiche generali. Il nostro metodo utilizza l'Informazione di Fisher per misurare l'importanza e l'allineamento del gradiente nel dominio generale per valutare il comportamento dei parametri, quindi combina questi segnali utilizzando il nostro punteggio di Importanza di Allineamento del Dominio (DAI). Punteggi DAI più bassi indicano che il parametro è meno importante per il task di dominio o crea conflitti tra gli obiettivi di dominio e generali. Esperimenti su due benchmark di dominio, FinMTEB e ChemTEB, mostrano che GAPrune mantiene le prestazioni entro il 2,5% dei modelli densi in un pruning one-shot al 50% di sparsità, superando tutti i baseline. Con il retraining in 100 passi, GAPrune ottiene un miglioramento del +4,51% su FinMTEB e del +1,73% su ChemTEB, dimostrando che la nostra strategia di pruning non solo preserva ma migliora le capacità specifiche del dominio. I nostri risultati dimostrano che strategie di pruning basate su principi possono ottenere la compressione del modello e una specializzazione di dominio potenziata, fornendo alla comunità di ricerca un nuovo approccio per lo sviluppo.
English
Domain-specific embedding models have shown promise for applications that
require specialized semantic understanding, such as coding agents and financial
retrieval systems, often achieving higher performance gains than general
models. However, state-of-the-art embedding models are typically based on LLMs,
which contain billions of parameters, making deployment challenging in
resource-constrained environments. Model compression through pruning offers a
promising solution, but existing pruning methods treat all parameters
uniformly, failing to distinguish between general semantic representations and
domain-specific patterns, leading to suboptimal pruning decisions. Thus, we
propose GAPrune, a pruning framework that addresses this challenge by
considering both domain importance and preserving general linguistic
foundation. Our method uses Fisher Information to measure importance and
general-domain gradient alignment to assess parameter behavior, then combines
these signals using our Domain Alignment Importance (DAI) scoring. Lower DAI
scores indicate that the parameter is either less important for the domain task
or creates conflicts between domain and general objectives. Experiments on two
domain benchmarks, FinMTEB and ChemTEB, show that GAPrune maintains performance
within 2.5% of dense models in one-shot pruning at 50% sparsity, while
outperforming all baselines. With retraining in 100 steps, GAPrune achieves
+4.51% improvement on FinMTEB and +1.73% on ChemTEB, demonstrating that our
pruning strategy not only preserves but enhances domain-specific capabilities.
Our findings demonstrate that principled pruning strategies can achieve model
compression and enhanced domain specialization, providing the research
community with a new approach for development.