Mineração de Negativos Difíceis para Recuperação Específica de Domínio em Sistemas Empresariais
Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems
May 23, 2025
Autores: Hansa Meghwani, Amit Agarwal, Priyaranjan Pattnayak, Hitesh Laxmichand Patel, Srikant Panda
cs.AI
Resumo
Sistemas de busca empresarial frequentemente enfrentam dificuldades para recuperar informações precisas e específicas de um domínio devido a incompatibilidades semânticas e sobreposição de terminologias. Esses problemas podem prejudicar o desempenho de aplicações subsequentes, como gerenciamento de conhecimento, suporte ao cliente e agentes de geração aumentada por recuperação. Para enfrentar esse desafio, propomos uma estrutura escalável de mineração de negativos difíceis, especialmente projetada para dados empresariais específicos de domínio. Nossa abordagem seleciona dinamicamente documentos semanticamente desafiadores, mas contextualmente irrelevantes, para aprimorar modelos de reclassificação já implantados.
Nosso método integra diversos modelos de embedding, realiza redução de dimensionalidade e seleciona de forma única negativos difíceis, garantindo eficiência computacional e precisão semântica. A avaliação em nosso corpus empresarial proprietário (domínio de serviços em nuvem) demonstra melhorias substanciais de 15% em MRR@3 e 19% em MRR@10 em comparação com baselines state-of-the-art e outras técnicas de amostragem negativa. Validações adicionais em conjuntos de dados públicos específicos de domínio (FiQA, Climate Fever, TechQA) confirmam a generalizabilidade do nosso método e sua prontidão para aplicações no mundo real.
English
Enterprise search systems often struggle to retrieve accurate,
domain-specific information due to semantic mismatches and overlapping
terminologies. These issues can degrade the performance of downstream
applications such as knowledge management, customer support, and
retrieval-augmented generation agents. To address this challenge, we propose a
scalable hard-negative mining framework tailored specifically for
domain-specific enterprise data. Our approach dynamically selects semantically
challenging but contextually irrelevant documents to enhance deployed
re-ranking models.
Our method integrates diverse embedding models, performs dimensionality
reduction, and uniquely selects hard negatives, ensuring computational
efficiency and semantic precision. Evaluation on our proprietary enterprise
corpus (cloud services domain) demonstrates substantial improvements of 15\% in
MRR@3 and 19\% in MRR@10 compared to state-of-the-art baselines and other
negative sampling techniques. Further validation on public domain-specific
datasets (FiQA, Climate Fever, TechQA) confirms our method's generalizability
and readiness for real-world applications.