Hartes Negativ-Mining für domänenspezifische Retrieval in Unternehmenssystemen
Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems
May 23, 2025
Autoren: Hansa Meghwani, Amit Agarwal, Priyaranjan Pattnayak, Hitesh Laxmichand Patel, Srikant Panda
cs.AI
Zusammenfassung
Unternehmenssuchsysteme haben oft Schwierigkeiten, präzise, domänenspezifische Informationen abzurufen, was auf semantische Fehlanpassungen und überlappende Terminologien zurückzuführen ist. Diese Probleme können die Leistung nachgelagerter Anwendungen wie Wissensmanagement, Kundensupport und Retrieval-Augmented-Generation-Agenten beeinträchtigen. Um diese Herausforderung zu bewältigen, schlagen wir ein skalierbares Framework für das Mining von Hard Negatives vor, das speziell für domänenspezifische Unternehmensdaten entwickelt wurde. Unser Ansatz wählt dynamisch semantisch anspruchsvolle, aber kontextuell irrelevante Dokumente aus, um eingesetzte Re-Ranking-Modelle zu verbessern.
Unsere Methode integriert verschiedene Embedding-Modelle, führt Dimensionsreduktion durch und wählt Hard Negatives auf einzigartige Weise aus, wodurch Recheneffizienz und semantische Präzision sichergestellt werden. Die Auswertung auf unserem proprietären Unternehmenskorpus (Cloud-Services-Domäne) zeigt erhebliche Verbesserungen von 15 % in MRR@3 und 19 % in MRR@10 im Vergleich zu state-of-the-art Baselines und anderen Negative-Sampling-Techniken. Eine weitere Validierung auf öffentlichen domänenspezifischen Datensätzen (FiQA, Climate Fever, TechQA) bestätigt die Generalisierbarkeit und Einsatzbereitschaft unserer Methode für reale Anwendungen.
English
Enterprise search systems often struggle to retrieve accurate,
domain-specific information due to semantic mismatches and overlapping
terminologies. These issues can degrade the performance of downstream
applications such as knowledge management, customer support, and
retrieval-augmented generation agents. To address this challenge, we propose a
scalable hard-negative mining framework tailored specifically for
domain-specific enterprise data. Our approach dynamically selects semantically
challenging but contextually irrelevant documents to enhance deployed
re-ranking models.
Our method integrates diverse embedding models, performs dimensionality
reduction, and uniquely selects hard negatives, ensuring computational
efficiency and semantic precision. Evaluation on our proprietary enterprise
corpus (cloud services domain) demonstrates substantial improvements of 15\% in
MRR@3 and 19\% in MRR@10 compared to state-of-the-art baselines and other
negative sampling techniques. Further validation on public domain-specific
datasets (FiQA, Climate Fever, TechQA) confirms our method's generalizability
and readiness for real-world applications.Summary
AI-Generated Summary