Mineração de Negativos Difíceis para Recuperação Específica de Domínio em Sistemas Empresariais

Resumo

Sistemas de busca empresarial frequentemente enfrentam dificuldades para recuperar informações precisas e específicas de um domínio devido a incompatibilidades semânticas e sobreposição de terminologias. Esses problemas podem prejudicar o desempenho de aplicações subsequentes, como gerenciamento de conhecimento, suporte ao cliente e agentes de geração aumentada por recuperação. Para enfrentar esse desafio, propomos uma estrutura escalável de mineração de negativos difíceis, especialmente projetada para dados empresariais específicos de domínio. Nossa abordagem seleciona dinamicamente documentos semanticamente desafiadores, mas contextualmente irrelevantes, para aprimorar modelos de reclassificação já implantados. Nosso método integra diversos modelos de embedding, realiza redução de dimensionalidade e seleciona de forma única negativos difíceis, garantindo eficiência computacional e precisão semântica. A avaliação em nosso corpus empresarial proprietário (domínio de serviços em nuvem) demonstra melhorias substanciais de 15% em MRR@3 e 19% em MRR@10 em comparação com baselines state-of-the-art e outras técnicas de amostragem negativa. Validações adicionais em conjuntos de dados públicos específicos de domínio (FiQA, Climate Fever, TechQA) confirmam a generalizabilidade do nosso método e sua prontidão para aplicações no mundo real.

English

Enterprise search systems often struggle to retrieve accurate, domain-specific information due to semantic mismatches and overlapping terminologies. These issues can degrade the performance of downstream applications such as knowledge management, customer support, and retrieval-augmented generation agents. To address this challenge, we propose a scalable hard-negative mining framework tailored specifically for domain-specific enterprise data. Our approach dynamically selects semantically challenging but contextually irrelevant documents to enhance deployed re-ranking models. Our method integrates diverse embedding models, performs dimensionality reduction, and uniquely selects hard negatives, ensuring computational efficiency and semantic precision. Evaluation on our proprietary enterprise corpus (cloud services domain) demonstrates substantial improvements of 15\% in MRR@3 and 19\% in MRR@10 compared to state-of-the-art baselines and other negative sampling techniques. Further validation on public domain-specific datasets (FiQA, Climate Fever, TechQA) confirms our method's generalizability and readiness for real-world applications.

Mineração de Negativos Difíceis para Recuperação Específica de Domínio em Sistemas Empresariais

Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems

Resumo

Support