Estrazione di Hard Negative per il Recupero di Informazioni Specifiche del Dominio nei Sistemi Aziendali
Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems
May 23, 2025
Autori: Hansa Meghwani, Amit Agarwal, Priyaranjan Pattnayak, Hitesh Laxmichand Patel, Srikant Panda
cs.AI
Abstract
I sistemi di ricerca aziendali spesso incontrano difficoltà nel recuperare informazioni accurate e specifiche del dominio a causa di disallineamenti semantici e terminologie sovrapposte. Questi problemi possono compromettere le prestazioni delle applicazioni downstream, come la gestione della conoscenza, il supporto clienti e gli agenti di generazione aumentata dal recupero. Per affrontare questa sfida, proponiamo un framework scalabile per il mining di negativi difficili, specificamente progettato per dati aziendali di dominio specifico. Il nostro approccio seleziona dinamicamente documenti semanticamente complessi ma contestualmente irrilevanti per migliorare i modelli di riordinamento implementati.
Il nostro metodo integra modelli di embedding diversificati, esegue la riduzione della dimensionalità e seleziona in modo univoco i negativi difficili, garantendo efficienza computazionale e precisione semantica. La valutazione sul nostro corpus aziendale proprietario (dominio dei servizi cloud) dimostra miglioramenti sostanziali del 15\% in MRR@3 e del 19\% in MRR@10 rispetto ai benchmark di stato dell'arte e ad altre tecniche di campionamento negativo. Un'ulteriore validazione su dataset pubblici specifici del dominio (FiQA, Climate Fever, TechQA) conferma la generalizzabilità del nostro metodo e la sua prontezza per applicazioni nel mondo reale.
English
Enterprise search systems often struggle to retrieve accurate,
domain-specific information due to semantic mismatches and overlapping
terminologies. These issues can degrade the performance of downstream
applications such as knowledge management, customer support, and
retrieval-augmented generation agents. To address this challenge, we propose a
scalable hard-negative mining framework tailored specifically for
domain-specific enterprise data. Our approach dynamically selects semantically
challenging but contextually irrelevant documents to enhance deployed
re-ranking models.
Our method integrates diverse embedding models, performs dimensionality
reduction, and uniquely selects hard negatives, ensuring computational
efficiency and semantic precision. Evaluation on our proprietary enterprise
corpus (cloud services domain) demonstrates substantial improvements of 15\% in
MRR@3 and 19\% in MRR@10 compared to state-of-the-art baselines and other
negative sampling techniques. Further validation on public domain-specific
datasets (FiQA, Climate Fever, TechQA) confirms our method's generalizability
and readiness for real-world applications.