Invloed-gestuurde Steekproefname voor Domeinadaptatie van Tekstretrievalsystemen

Samenvatting

Algemene open-domein dense retrieval-systemen worden meestal getraind met een grote, eclectische mix van corpora en zoektaken. Hoe moeten deze diverse corpora en taken worden bemonsterd voor training? Conventionele benaderingen bemonsteren ze uniform, proportioneel aan hun instantiepopulatiegroottes, of zijn afhankelijk van menselijke expertsupervisie. Het is bekend dat de bemonsteringsstrategie voor trainingsdata de modelprestatie sterk kan beïnvloeden. Hoe de optimale strategie gevonden kan worden, is echter niet voldoende bestudeerd in de context van embedding-modellen. Wij stellen Inf-DDS voor, een nieuw op reinforcement learning gebaseerd bemonsteringsraamwerk dat trainingsdatasets adaptief herweegt, geleid door invloedsgebaseerde beloningssignalen, en dat aanzienlijk lichter is wat GPU-verbruik betreft. Onze techniek verfijnt iteratief het bemonsteringsbeleid en geeft prioriteit aan datasets die de modelprestatie op een doel-ontwikkelset maximaliseren. Wij evalueren de doeltreffendheid van onze bemonsteringsstrategie op een breed scala aan tekstretrievaltaken en tonen sterke verbeteringen in retrievalprestaties en betere aanpassing aan in vergelijking met bestaande gradient-gebaseerde bemonsteringsmethoden, terwijl het ook 1,5x tot 4x goedkoper is in GPU-gebruik. Onze bemonsteringsstrategie bereikt een absolute NDCG@10-verbetering van 5,03 bij het trainen van een multitalig bge-m3-model en een absolute NDCG@10-verbetering van 0,94 bij het trainen van all-MiniLM-L6-v2, zelfs wanneer gestart wordt vanaf expert-toegekende gewichten op een grote pool van trainingsdatasets.

English

General-purpose open-domain dense retrieval systems are usually trained with a large, eclectic mix of corpora and search tasks. How should these diverse corpora and tasks be sampled for training? Conventional approaches sample them uniformly, proportional to their instance population sizes, or depend on human-level expert supervision. It is well known that the training data sampling strategy can greatly impact model performance. However, how to find the optimal strategy has not been adequately studied in the context of embedding models. We propose Inf-DDS, a novel reinforcement learning driven sampling framework that adaptively reweighs training datasets guided by influence-based reward signals and is much more lightweight with respect to GPU consumption. Our technique iteratively refines the sampling policy, prioritizing datasets that maximize model performance on a target development set. We evaluate the efficacy of our sampling strategy on a wide range of text retrieval tasks, demonstrating strong improvements in retrieval performance and better adaptation compared to existing gradient-based sampling methods, while also being 1.5x to 4x cheaper in GPU compute. Our sampling strategy achieves a 5.03 absolute NDCG@10 improvement while training a multilingual bge-m3 model and an absolute NDCG@10 improvement of 0.94 while training all-MiniLM-L6-v2, even when starting from expert-assigned weights on a large pool of training datasets.

Invloed-gestuurde Steekproefname voor Domeinadaptatie van Tekstretrievalsystemen

Influence Guided Sampling for Domain Adaptation of Text Retrievers

Samenvatting

Support