Échantillonnage Guidé par l'Influence pour l'Adaptation de Domaine des Systèmes de Recherche de Textes

Résumé

Les systèmes de recherche dense généralistes en domaine ouvert sont généralement entraînés avec un vaste mélange éclectique de corpus et de tâches de recherche. Comment ces corpus et tâches diversifiés doivent-ils être échantillonnés pour l'entraînement ? Les approches conventionnelles les échantillonnent de manière uniforme, proportionnellement à la taille de leur population d'instances, ou dépendent d'une supervision experte humaine. Il est bien connu que la stratégie d'échantillonnage des données d'entraînement peut grandement influencer les performances du modèle. Cependant, la manière de trouver la stratégie optimale n'a pas été suffisamment étudiée dans le contexte des modèles d'embedding. Nous proposons Inf-DDS, un nouveau cadre d'échantillonnage piloté par apprentissage par renforcement qui repondère adaptativement les jeux de données d'entraînement guidé par des signaux de récompense basés sur l'influence, et qui est bien plus léger en termes de consommation GPU. Notre technique affine itérativement la politique d'échantillonnage, en priorisant les jeux de données qui maximisent les performances du modèle sur un jeu de développement cible. Nous évaluons l'efficacité de notre stratégie d'échantillonnage sur un large éventail de tâches de recherche textuelle, démontrant de fortes améliorations des performances de recherche et une meilleure adaptation par rapport aux méthodes d'échantillonnage basées sur le gradient existantes, tout en étant également 1,5 à 4 fois moins coûteuse en calcul GPU. Notre stratégie d'échantillonnage atteint une amélioration absolue de 5,03 points du NDCG@10 lors de l'entraînement du modèle multilingue bge-m3 et une amélioration absolue de 0,94 point du NDCG@10 lors de l'entraînement du modèle all-MiniLM-L6-v2, et ce même en partant de pondérations assignées par des experts sur un large pool de jeux de données d'entraînement.

English

General-purpose open-domain dense retrieval systems are usually trained with a large, eclectic mix of corpora and search tasks. How should these diverse corpora and tasks be sampled for training? Conventional approaches sample them uniformly, proportional to their instance population sizes, or depend on human-level expert supervision. It is well known that the training data sampling strategy can greatly impact model performance. However, how to find the optimal strategy has not been adequately studied in the context of embedding models. We propose Inf-DDS, a novel reinforcement learning driven sampling framework that adaptively reweighs training datasets guided by influence-based reward signals and is much more lightweight with respect to GPU consumption. Our technique iteratively refines the sampling policy, prioritizing datasets that maximize model performance on a target development set. We evaluate the efficacy of our sampling strategy on a wide range of text retrieval tasks, demonstrating strong improvements in retrieval performance and better adaptation compared to existing gradient-based sampling methods, while also being 1.5x to 4x cheaper in GPU compute. Our sampling strategy achieves a 5.03 absolute NDCG@10 improvement while training a multilingual bge-m3 model and an absolute NDCG@10 improvement of 0.94 while training all-MiniLM-L6-v2, even when starting from expert-assigned weights on a large pool of training datasets.

Échantillonnage Guidé par l'Influence pour l'Adaptation de Domaine des Systèmes de Recherche de Textes

Influence Guided Sampling for Domain Adaptation of Text Retrievers

Résumé

Support