텍스트 검색 모델의 도메인 적응을 위한 영향력 기반 샘플링
Influence Guided Sampling for Domain Adaptation of Text Retrievers
January 29, 2026
저자: Meet Doshi, Vishwajeet Kumar, Yulong Li, Jaydeep Sen
cs.AI
초록
범용 오픈도메인 고밀도 검색 시스템은 일반적으로 방대하고 다양한 코퍼스와 검색 작업을 혼합하여 학습됩니다. 이러한 다양한 코퍼스와 작업을 학습에 사용하기 위해 어떻게 샘플링해야 할까요? 기존 접근법은 인스턴스 규모에 비례하여 균일하게 샘플링하거나 인간 수준의 전문가 감독에 의존해왔습니다. 학습 데이터 샘플링 전략이 모델 성능에 큰 영향을 미친다는 것은 잘 알려져 있습니다. 그러나 임베딩 모델 맥락에서 최적의 전략을 찾는 방법은 충분히 연구되지 않았습니다. 본 연구에서는 영향도 기반 보상 신호에 따라 학습 데이터셋의 가중치를 적응적으로 재조정하며 GPU 소비 측면에서 훨씬 더 가벼운 새로운 강화 학습 기반 샘플링 프레임워크인 Inf-DDS를 제안합니다. 우리의 기법은 샘플링 정책을 반복적으로 개선하여 타겟 개발 세트에서 모델 성능을 극대화하는 데이터셋을 우선적으로 선택합니다. 다양한 텍스트 검색 작업에 대한 우리의 샘플링 전략 효율성을 평가한 결과, 기존 그래디언트 기반 샘플링 방법 대비 검색 성능이 크게 향상되고 적응력이 더 우수하며 GPU 연산 비용이 1.5배에서 4배까지 저렴함을 입증했습니다. 우리의 샘플링 전략은 다국어 bge-m3 모델 학습 시 NDCG@10에서 5.03의 절대적 향상을, all-MiniLM-L6-v2 모델 학습 시 NDCG@10에서 0.94의 절대적 향상을 달성했으며, 이는 대규모 학습 데이터셋 풀에 전문가가 할당한 가중치에서 시작한 경우에도 마찬가지였습니다.
English
General-purpose open-domain dense retrieval systems are usually trained with a large, eclectic mix of corpora and search tasks. How should these diverse corpora and tasks be sampled for training? Conventional approaches sample them uniformly, proportional to their instance population sizes, or depend on human-level expert supervision. It is well known that the training data sampling strategy can greatly impact model performance. However, how to find the optimal strategy has not been adequately studied in the context of embedding models. We propose Inf-DDS, a novel reinforcement learning driven sampling framework that adaptively reweighs training datasets guided by influence-based reward signals and is much more lightweight with respect to GPU consumption. Our technique iteratively refines the sampling policy, prioritizing datasets that maximize model performance on a target development set. We evaluate the efficacy of our sampling strategy on a wide range of text retrieval tasks, demonstrating strong improvements in retrieval performance and better adaptation compared to existing gradient-based sampling methods, while also being 1.5x to 4x cheaper in GPU compute. Our sampling strategy achieves a 5.03 absolute NDCG@10 improvement while training a multilingual bge-m3 model and an absolute NDCG@10 improvement of 0.94 while training all-MiniLM-L6-v2, even when starting from expert-assigned weights on a large pool of training datasets.