Campionamento Guidato dall'Influenza per l'Adattamento di Dominio dei Sistemi di Recupero di Testo

Abstract

I sistemi di recupero denso open-domain generici vengono solitamente addestrati con un'ampia miscela eclettica di corpora e task di ricerca. Come campionare questi corpora e task diversificati per l'addestramento? Gli approcci convenzionali li campionano in modo uniforme, proporzionalmente alle dimensioni delle loro popolazioni di istanze, o dipendono da supervisione esperta a livello umano. È ben noto che la strategia di campionamento dei dati di addestramento può influenzare notevolmente le prestazioni del modello. Tuttavia, come trovare la strategia ottimale non è stato adeguatamente studiato nel contesto dei modelli di embedding. Proponiamo Inf-DDS, un nuovo framework di campionamento guidato da reinforcement learning che rivaluta adattivamente i dataset di addestramento guidato da segnali di reward basati sull'influenza e che è molto più leggero per quanto riguarda il consumo GPU. La nostra tecnica affina iterativamente la politica di campionamento, dando priorità ai dataset che massimizzano le prestazioni del modello su un set di sviluppo target. Valutiamo l'efficacia della nostra strategia di campionamento su un'ampia gamma di task di recupero testuale, dimostrando forti miglioramenti nelle prestazioni di recupero e un migliore adattamento rispetto ai metodi di campionamento basati su gradiente esistenti, essendo anche da 1,5x a 4x più economica in termini di calcolo GPU. La nostra strategia di campionamento raggiunge un miglioramento assoluto di 5,03 in NDCG@10 addestrando un modello multilingue bge-m3 e un miglioramento assoluto di 0,94 in NDCG@10 addestrando all-MiniLM-L6-v2, anche partendo da pesi assegnati da esperti su un ampio pool di dataset di addestramento.

English

General-purpose open-domain dense retrieval systems are usually trained with a large, eclectic mix of corpora and search tasks. How should these diverse corpora and tasks be sampled for training? Conventional approaches sample them uniformly, proportional to their instance population sizes, or depend on human-level expert supervision. It is well known that the training data sampling strategy can greatly impact model performance. However, how to find the optimal strategy has not been adequately studied in the context of embedding models. We propose Inf-DDS, a novel reinforcement learning driven sampling framework that adaptively reweighs training datasets guided by influence-based reward signals and is much more lightweight with respect to GPU consumption. Our technique iteratively refines the sampling policy, prioritizing datasets that maximize model performance on a target development set. We evaluate the efficacy of our sampling strategy on a wide range of text retrieval tasks, demonstrating strong improvements in retrieval performance and better adaptation compared to existing gradient-based sampling methods, while also being 1.5x to 4x cheaper in GPU compute. Our sampling strategy achieves a 5.03 absolute NDCG@10 improvement while training a multilingual bge-m3 model and an absolute NDCG@10 improvement of 0.94 while training all-MiniLM-L6-v2, even when starting from expert-assigned weights on a large pool of training datasets.

Campionamento Guidato dall'Influenza per l'Adattamento di Dominio dei Sistemi di Recupero di Testo

Influence Guided Sampling for Domain Adaptation of Text Retrievers

Abstract

Support