Estrazione di Hard Negative per il Recupero di Informazioni Specifiche del Dominio nei Sistemi Aziendali

Abstract

I sistemi di ricerca aziendali spesso incontrano difficoltà nel recuperare informazioni accurate e specifiche del dominio a causa di disallineamenti semantici e terminologie sovrapposte. Questi problemi possono compromettere le prestazioni delle applicazioni downstream, come la gestione della conoscenza, il supporto clienti e gli agenti di generazione aumentata dal recupero. Per affrontare questa sfida, proponiamo un framework scalabile per il mining di negativi difficili, specificamente progettato per dati aziendali di dominio specifico. Il nostro approccio seleziona dinamicamente documenti semanticamente complessi ma contestualmente irrilevanti per migliorare i modelli di riordinamento implementati. Il nostro metodo integra modelli di embedding diversificati, esegue la riduzione della dimensionalità e seleziona in modo univoco i negativi difficili, garantendo efficienza computazionale e precisione semantica. La valutazione sul nostro corpus aziendale proprietario (dominio dei servizi cloud) dimostra miglioramenti sostanziali del 15\% in MRR@3 e del 19\% in MRR@10 rispetto ai benchmark di stato dell'arte e ad altre tecniche di campionamento negativo. Un'ulteriore validazione su dataset pubblici specifici del dominio (FiQA, Climate Fever, TechQA) conferma la generalizzabilità del nostro metodo e la sua prontezza per applicazioni nel mondo reale.

English

Enterprise search systems often struggle to retrieve accurate, domain-specific information due to semantic mismatches and overlapping terminologies. These issues can degrade the performance of downstream applications such as knowledge management, customer support, and retrieval-augmented generation agents. To address this challenge, we propose a scalable hard-negative mining framework tailored specifically for domain-specific enterprise data. Our approach dynamically selects semantically challenging but contextually irrelevant documents to enhance deployed re-ranking models. Our method integrates diverse embedding models, performs dimensionality reduction, and uniquely selects hard negatives, ensuring computational efficiency and semantic precision. Evaluation on our proprietary enterprise corpus (cloud services domain) demonstrates substantial improvements of 15\% in MRR@3 and 19\% in MRR@10 compared to state-of-the-art baselines and other negative sampling techniques. Further validation on public domain-specific datasets (FiQA, Climate Fever, TechQA) confirms our method's generalizability and readiness for real-world applications.

Estrazione di Hard Negative per il Recupero di Informazioni Specifiche del Dominio nei Sistemi Aziendali

Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems

Abstract

Support