Einflussgesteuerte Stichprobenziehung zur Domänenanpassung von Textretrieval-Systemen
Influence Guided Sampling for Domain Adaptation of Text Retrievers
January 29, 2026
Autoren: Meet Doshi, Vishwajeet Kumar, Yulong Li, Jaydeep Sen
cs.AI
Zusammenfassung
Allgemeine Open-Domain-Dense-Retrieval-Systeme werden üblicherweise mit einer großen, eklektischen Mischung aus Korpora und Suchaufgaben trainiert. Wie sollten diese diversen Korpora und Aufgaben für das Training ausgewählt werden? Konventionelle Ansätze wählen sie gleichmäßig aus, proportional zu ihren Instanzenumfängen, oder stützen sich auf menschliche Expertensupervision. Es ist bekannt, dass die Strategie zur Stichprobenziehung der Trainingsdaten die Modellleistung erheblich beeinflussen kann. Wie jedoch die optimale Strategie gefunden werden kann, wurde im Kontext von Embedding-Modellen nicht ausreichend untersucht. Wir schlagen Inf-DDS vor, ein neuartiges, durch Reinforcement Learning gesteuertes Sampling-Framework, das Trainingsdatensätze adaptiv neu gewichtet, geleitet durch einflussbasierte Belohnungssignale, und das deutlich ressourcenschonender im Hinblick auf den GPU-Verbrauch ist. Unsere Technik verfeinert iterativ die Sampling-Policy, priorisiert Datensätze, die die Modellleistung auf einem Ziel-Development-Set maximieren. Wir evaluieren die Wirksamkeit unserer Sampling-Strategie für eine breite Palette von Text-Retrieval-Aufgaben und demonstrieren deutliche Verbesserungen der Retrieval-Leistung und eine bessere Anpassung im Vergleich zu bestehenden gradientenbasierten Sampling-Methoden, bei gleichzeitig 1,5x bis 4x geringerem GPU-Bedarf. Unsere Sampling-Strategie erzielt eine absolute NDCG@10-Verbesserung von 5,03 beim Training eines multilingualen bge-m3-Modells und eine absolute NDCG@10-Verbesserung von 0,94 beim Training von all-MiniLM-L6-v2, selbst wenn von expertengesteuert zugewiesenen Gewichten auf einem großen Pool von Trainingsdatensätzen ausgegangen wird.
English
General-purpose open-domain dense retrieval systems are usually trained with a large, eclectic mix of corpora and search tasks. How should these diverse corpora and tasks be sampled for training? Conventional approaches sample them uniformly, proportional to their instance population sizes, or depend on human-level expert supervision. It is well known that the training data sampling strategy can greatly impact model performance. However, how to find the optimal strategy has not been adequately studied in the context of embedding models. We propose Inf-DDS, a novel reinforcement learning driven sampling framework that adaptively reweighs training datasets guided by influence-based reward signals and is much more lightweight with respect to GPU consumption. Our technique iteratively refines the sampling policy, prioritizing datasets that maximize model performance on a target development set. We evaluate the efficacy of our sampling strategy on a wide range of text retrieval tasks, demonstrating strong improvements in retrieval performance and better adaptation compared to existing gradient-based sampling methods, while also being 1.5x to 4x cheaper in GPU compute. Our sampling strategy achieves a 5.03 absolute NDCG@10 improvement while training a multilingual bge-m3 model and an absolute NDCG@10 improvement of 0.94 while training all-MiniLM-L6-v2, even when starting from expert-assigned weights on a large pool of training datasets.