ChatPaper.aiChatPaper

Domain2Vec: Vektorisierung von Datensätzen zur Ermittlung der optimalen Datenmischung ohne Training

Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training

June 12, 2025
Autoren: Mozhi Zhang, Howe Tissue, Lu Wang, Xipeng Qiu
cs.AI

Zusammenfassung

Wir stellen~Domain2Vec vor, einen neuartigen Ansatz, der jeden Datensatz in eine lineare Kombination mehrerer Meta-Domänen zerlegt, ein neues Konzept, das entwickelt wurde, um die wesentlichen zugrunde liegenden Merkmale von Datensätzen zu erfassen. Domain2Vec verwaltet ein Vokabular von Meta-Domänen und verwendet einen Klassifikator, um einen gegebenen Datensatz in einen Domänenvektor zu zerlegen, der einer Verteilung über dieses Vokabular entspricht. Diese Domänenvektoren ermöglichen die Identifizierung der optimalen Datenmischung für das Vortraining von Sprachmodellen (LM) auf trainingsfreie Weise unter der \textbf{Verteilungsausrichtungsannahme} (DA^{2}), die besagt, dass bei besserer Ausrichtung der Datenverteilungen des Trainings- und Validierungssatzes ein geringerer Validierungsverlust erreicht wird. Darüber hinaus kann Domain2Vec nahtlos in frühere Arbeiten integriert werden, um die Beziehung zwischen Domänenvektoren und der Leistung von Sprachmodellen zu modellieren, wodurch die Effizienz und Skalierbarkeit früherer Methoden erheblich verbessert wird. Umfangreiche Experimente zeigen, dass Domain2Vec die Datenmischung findet, die die Leistung bei nachgelagerten Aufgaben mit minimalem Rechenaufwand verbessert. Insbesondere erreicht Domain2Vec denselben Validierungsverlust auf Pile-CC mit nur 51,5 % des Rechenaufwands, der beim Training auf der ursprünglichen Mischung des Pile-Datensatzes erforderlich ist. Bei gleichem Rechenbudget verbessert Domain2Vec die nachgelagerte Leistung im Durchschnitt um 2,83 %.
English
We introduce~Domain2Vec, a novel approach that decomposes any dataset into a linear combination of several meta-domains, a new concept designed to capture the key underlying features of datasets. Domain2Vec maintains a vocabulary of meta-domains and uses a classifier to decompose any given dataset into a domain vector that corresponds to a distribution over this vocabulary. These domain vectors enable the identification of the optimal data mixture for language model (LM) pretraining in a training-free manner under the \textbf{Distribution Alignment Assumption} (DA^{2}), which suggests that when the data distributions of the training set and the validation set are better aligned, a lower validation loss is achieved. Moreover, Domain2vec can be seamlessly integrated into previous works to model the relationship between domain vectors and LM performance, greatly enhancing the efficiency and scalability of previous methods. Extensive experiments demonstrate that Domain2Vec helps find the data mixture that enhances downstream task performance with minimal computational overhead. Specifically, Domain2Vec achieves the same validation loss on Pile-CC using only 51.5% of the computation required when training on the original mixture of The Pile dataset. Under equivalent compute budget, Domain2Vec improves downstream performance by an average of 2.83%.
PDF202June 13, 2025