GAPrune: Poda de Alineación de Gradientes para Incrustaciones Conscientes del Dominio

Resumen

Los modelos de incrustación específicos de dominio han mostrado ser prometedores para aplicaciones que requieren una comprensión semántica especializada, como agentes de codificación y sistemas de recuperación financiera, logrando a menudo mayores ganancias de rendimiento que los modelos generales. Sin embargo, los modelos de incrustación más avanzados suelen basarse en LLM (modelos de lenguaje grandes), que contienen miles de millones de parámetros, lo que dificulta su implementación en entornos con recursos limitados. La compresión de modelos mediante poda ofrece una solución prometedora, pero los métodos de poda existentes tratan todos los parámetros de manera uniforme, sin distinguir entre representaciones semánticas generales y patrones específicos del dominio, lo que lleva a decisiones de poda subóptimas. Por ello, proponemos GAPrune, un marco de poda que aborda este desafío considerando tanto la importancia del dominio como la preservación de la base lingüística general. Nuestro método utiliza la Información de Fisher para medir la importancia y la alineación de gradientes en el dominio general para evaluar el comportamiento de los parámetros, combinando estas señales mediante nuestra puntuación de Importancia de Alineación de Dominio (DAI). Puntuaciones DAI más bajas indican que el parámetro es menos importante para la tarea del dominio o crea conflictos entre los objetivos del dominio y los generales. Los experimentos en dos puntos de referencia de dominio, FinMTEB y ChemTEB, muestran que GAPrune mantiene el rendimiento dentro del 2.5% de los modelos densos en la poda de un solo paso con un 50% de dispersión, superando a todas las líneas base. Con un reentrenamiento en 100 pasos, GAPrune logra una mejora del +4.51% en FinMTEB y del +1.73% en ChemTEB, demostrando que nuestra estrategia de poda no solo preserva, sino que también mejora las capacidades específicas del dominio. Nuestros hallazgos demuestran que las estrategias de poda fundamentadas pueden lograr la compresión de modelos y una especialización de dominio mejorada, proporcionando a la comunidad investigadora un nuevo enfoque para el desarrollo.

English

Domain-specific embedding models have shown promise for applications that require specialized semantic understanding, such as coding agents and financial retrieval systems, often achieving higher performance gains than general models. However, state-of-the-art embedding models are typically based on LLMs, which contain billions of parameters, making deployment challenging in resource-constrained environments. Model compression through pruning offers a promising solution, but existing pruning methods treat all parameters uniformly, failing to distinguish between general semantic representations and domain-specific patterns, leading to suboptimal pruning decisions. Thus, we propose GAPrune, a pruning framework that addresses this challenge by considering both domain importance and preserving general linguistic foundation. Our method uses Fisher Information to measure importance and general-domain gradient alignment to assess parameter behavior, then combines these signals using our Domain Alignment Importance (DAI) scoring. Lower DAI scores indicate that the parameter is either less important for the domain task or creates conflicts between domain and general objectives. Experiments on two domain benchmarks, FinMTEB and ChemTEB, show that GAPrune maintains performance within 2.5% of dense models in one-shot pruning at 50% sparsity, while outperforming all baselines. With retraining in 100 steps, GAPrune achieves +4.51% improvement on FinMTEB and +1.73% on ChemTEB, demonstrating that our pruning strategy not only preserves but enhances domain-specific capabilities. Our findings demonstrate that principled pruning strategies can achieve model compression and enhanced domain specialization, providing the research community with a new approach for development.

GAPrune: Poda de Alineación de Gradientes para Incrustaciones Conscientes del Dominio

GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings

Resumen

Support