ChatPaper.aiChatPaper

Domain2Vec: Vectoriseren van Datasets om de Optimale Data Mix te Vinden zonder Training

Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training

June 12, 2025
Auteurs: Mozhi Zhang, Howe Tissue, Lu Wang, Xipeng Qiu
cs.AI

Samenvatting

We introduceren~Domain2Vec, een nieuwe aanpak die elke dataset ontbindt in een lineaire combinatie van verschillende meta-domeinen, een nieuw concept ontworpen om de belangrijkste onderliggende kenmerken van datasets vast te leggen. Domain2Vec onderhoudt een vocabulaire van meta-domeinen en gebruikt een classifier om elke gegeven dataset te ontbinden in een domeinvector die overeenkomt met een verdeling over dit vocabulaire. Deze domeinvectoren maken het mogelijk om de optimale datamix voor het vooraf trainen van taalmodel (LM) te identificeren op een trainingsvrije manier onder de \textbf{Distributie-Uitlijningsaanname} (DA^{2}), die suggereert dat wanneer de datadistributies van de trainingsset en de validatieset beter zijn uitgelijnd, een lagere validatieverlies wordt bereikt. Bovendien kan Domain2Vec naadloos worden geïntegreerd in eerdere werken om de relatie tussen domeinvectoren en LM-prestaties te modelleren, waardoor de efficiëntie en schaalbaarheid van eerdere methoden aanzienlijk worden verbeterd. Uitgebreide experimenten tonen aan dat Domain2Vec helpt bij het vinden van de datamix die de prestaties van downstream taken verbetert met minimale rekenkundige overhead. Specifiek behaalt Domain2Vec hetzelfde validatieverlies op Pile-CC met slechts 51,5% van de benodigde berekeningen bij het trainen op de originele mix van de Pile-dataset. Onder een gelijkwaardig rekenbudget verbetert Domain2Vec de downstream prestaties gemiddeld met 2,83%.
English
We introduce~Domain2Vec, a novel approach that decomposes any dataset into a linear combination of several meta-domains, a new concept designed to capture the key underlying features of datasets. Domain2Vec maintains a vocabulary of meta-domains and uses a classifier to decompose any given dataset into a domain vector that corresponds to a distribution over this vocabulary. These domain vectors enable the identification of the optimal data mixture for language model (LM) pretraining in a training-free manner under the \textbf{Distribution Alignment Assumption} (DA^{2}), which suggests that when the data distributions of the training set and the validation set are better aligned, a lower validation loss is achieved. Moreover, Domain2vec can be seamlessly integrated into previous works to model the relationship between domain vectors and LM performance, greatly enhancing the efficiency and scalability of previous methods. Extensive experiments demonstrate that Domain2Vec helps find the data mixture that enhances downstream task performance with minimal computational overhead. Specifically, Domain2Vec achieves the same validation loss on Pile-CC using only 51.5% of the computation required when training on the original mixture of The Pile dataset. Under equivalent compute budget, Domain2Vec improves downstream performance by an average of 2.83%.
PDF202June 13, 2025