Hartes Negativ-Mining für domänenspezifische Retrieval in Unternehmenssystemen

Zusammenfassung

Unternehmenssuchsysteme haben oft Schwierigkeiten, präzise, domänenspezifische Informationen abzurufen, was auf semantische Fehlanpassungen und überlappende Terminologien zurückzuführen ist. Diese Probleme können die Leistung nachgelagerter Anwendungen wie Wissensmanagement, Kundensupport und Retrieval-Augmented-Generation-Agenten beeinträchtigen. Um diese Herausforderung zu bewältigen, schlagen wir ein skalierbares Framework für das Mining von Hard Negatives vor, das speziell für domänenspezifische Unternehmensdaten entwickelt wurde. Unser Ansatz wählt dynamisch semantisch anspruchsvolle, aber kontextuell irrelevante Dokumente aus, um eingesetzte Re-Ranking-Modelle zu verbessern. Unsere Methode integriert verschiedene Embedding-Modelle, führt Dimensionsreduktion durch und wählt Hard Negatives auf einzigartige Weise aus, wodurch Recheneffizienz und semantische Präzision sichergestellt werden. Die Auswertung auf unserem proprietären Unternehmenskorpus (Cloud-Services-Domäne) zeigt erhebliche Verbesserungen von 15 % in MRR@3 und 19 % in MRR@10 im Vergleich zu state-of-the-art Baselines und anderen Negative-Sampling-Techniken. Eine weitere Validierung auf öffentlichen domänenspezifischen Datensätzen (FiQA, Climate Fever, TechQA) bestätigt die Generalisierbarkeit und Einsatzbereitschaft unserer Methode für reale Anwendungen.

English

Enterprise search systems often struggle to retrieve accurate, domain-specific information due to semantic mismatches and overlapping terminologies. These issues can degrade the performance of downstream applications such as knowledge management, customer support, and retrieval-augmented generation agents. To address this challenge, we propose a scalable hard-negative mining framework tailored specifically for domain-specific enterprise data. Our approach dynamically selects semantically challenging but contextually irrelevant documents to enhance deployed re-ranking models. Our method integrates diverse embedding models, performs dimensionality reduction, and uniquely selects hard negatives, ensuring computational efficiency and semantic precision. Evaluation on our proprietary enterprise corpus (cloud services domain) demonstrates substantial improvements of 15\% in MRR@3 and 19\% in MRR@10 compared to state-of-the-art baselines and other negative sampling techniques. Further validation on public domain-specific datasets (FiQA, Climate Fever, TechQA) confirms our method's generalizability and readiness for real-world applications.