Amostragem Guiada por Influência para Adaptação de Domínio de Recuperadores de Texto
Influence Guided Sampling for Domain Adaptation of Text Retrievers
January 29, 2026
Autores: Meet Doshi, Vishwajeet Kumar, Yulong Li, Jaydeep Sen
cs.AI
Resumo
Os sistemas de recuperação densa de domínio aberto de propósito geral são normalmente treinados com uma grande e eclética mistura de corpora e tarefas de busca. Como essas diversas coleções de dados e tarefas devem ser amostradas para o treinamento? As abordagens convencionais as amostram de forma uniforme, proporcional ao tamanho de suas populações de instâncias, ou dependem de supervisão especializada humana. É bem sabido que a estratégia de amostragem dos dados de treinamento pode impactar significativamente o desempenho do modelo. No entanto, como encontrar a estratégia ideal não foi adequadamente estudado no contexto dos modelos de embedding. Propomos o Inf-DDS, uma nova estrutura de amostragem orientada por aprendizagem por reforço que repondera adaptativamente os conjuntos de dados de treinamento guiada por sinais de recompensa baseados em influência e é muito mais leve em relação ao consumo de GPU. Nossa técnica refina iterativamente a política de amostragem, priorizando conjuntos de dados que maximizam o desempenho do modelo em um conjunto de desenvolvimento alvo. Avaliamos a eficácia da nossa estratégia de amostragem em uma ampla gama de tarefas de recuperação de texto, demonstrando fortes melhorias no desempenho de recuperação e uma melhor adaptação em comparação com os métodos de amostragem baseados em gradiente existentes, além de ser 1,5 a 4 vezes mais econômica em computação de GPU. Nossa estratégia de amostragem alcança uma melhoria absoluta de 5,03 no NDCG@10 ao treinar um modelo multilíngue bge-m3 e uma melhoria absoluta de 0,94 no NDCG@10 ao treinar o all-MiniLM-L6-v2, mesmo começando com pesos atribuídos por especialistas em um grande conjunto de conjuntos de dados de treinamento.
English
General-purpose open-domain dense retrieval systems are usually trained with a large, eclectic mix of corpora and search tasks. How should these diverse corpora and tasks be sampled for training? Conventional approaches sample them uniformly, proportional to their instance population sizes, or depend on human-level expert supervision. It is well known that the training data sampling strategy can greatly impact model performance. However, how to find the optimal strategy has not been adequately studied in the context of embedding models. We propose Inf-DDS, a novel reinforcement learning driven sampling framework that adaptively reweighs training datasets guided by influence-based reward signals and is much more lightweight with respect to GPU consumption. Our technique iteratively refines the sampling policy, prioritizing datasets that maximize model performance on a target development set. We evaluate the efficacy of our sampling strategy on a wide range of text retrieval tasks, demonstrating strong improvements in retrieval performance and better adaptation compared to existing gradient-based sampling methods, while also being 1.5x to 4x cheaper in GPU compute. Our sampling strategy achieves a 5.03 absolute NDCG@10 improvement while training a multilingual bge-m3 model and an absolute NDCG@10 improvement of 0.94 while training all-MiniLM-L6-v2, even when starting from expert-assigned weights on a large pool of training datasets.