Rastreando los Orígenes: Un Marco Multiagente para Descubrir el Linaje de Datos en LLMs Post-Entrenados

Resumen

Los datos de post-entrenamiento juegan un papel crucial en la configuración de las capacidades de los Modelos de Lenguaje a Gran Escala (LLMs); sin embargo, los conjuntos de datos a menudo se tratan como artefactos aislados, pasando por alto las conexiones sistémicas que subyacen a su evolución. Para desentrañar estas complejas relaciones, introducimos el concepto de linaje de datos en el ecosistema de los LLMs y proponemos un marco automatizado multi-agente para reconstruir el grafo evolutivo del desarrollo de conjuntos de datos. Mediante un análisis de linaje a gran escala, caracterizamos patrones estructurales específicos de dominio, como el refinamiento vertical en conjuntos de datos orientados a matemáticas y la agregación horizontal en corpus de dominio general. Además, descubrimos problemas sistémicos generalizados, incluyendo la redundancia estructural inducida por intersecciones implícitas de conjuntos de datos y la propagación de contaminación de benchmarks a lo largo de las rutas de linaje. Para demostrar el valor práctico del análisis de linaje en la construcción de datos, utilizamos el grafo de linaje reconstruido para crear un conjunto de datos orientado a la diversidad y consciente del linaje. Al anclar el muestreo de instrucciones en fuentes raíz ascendentes, este enfoque mitiga la homogeneización descendente y la redundancia oculta, produciendo un corpus de post-entrenamiento más diverso. Destacamos además el análisis centrado en el linaje como una alternativa topológica eficiente y robusta a la comparación de conjuntos de datos a nivel de muestra para ecosistemas de datos a gran escala. Al fundamentar la construcción de datos en estructuras de linaje explícitas, nuestro trabajo avanza la curación de datos de post-entrenamiento hacia un paradigma más sistemático y controlable.

English

Post-training data plays a pivotal role in shaping the capabilities of Large Language Models (LLMs), yet datasets are often treated as isolated artifacts, overlooking the systemic connections that underlie their evolution. To disentangle these complex relationships, we introduce the concept of data lineage to the LLM ecosystem and propose an automated multi-agent framework to reconstruct the evolutionary graph of dataset development. Through large-scale lineage analysis, we characterize domain-specific structural patterns, such as vertical refinement in math-oriented datasets and horizontal aggregation in general-domain corpora. Moreover, we uncover pervasive systemic issues, including structural redundancy induced by implicit dataset intersections and the propagation of benchmark contamination along lineage paths. To demonstrate the practical value of lineage analysis for data construction, we leverage the reconstructed lineage graph to create a lineage-aware diversity-oriented dataset. By anchoring instruction sampling at upstream root sources, this approach mitigates downstream homogenization and hidden redundancy, yielding a more diverse post-training corpus. We further highlight lineage-centric analysis as an efficient and robust topological alternative to sample-level dataset comparison for large-scale data ecosystems. By grounding data construction in explicit lineage structures, our work advances post-training data curation toward a more systematic and controllable paradigm.

Rastreando los Orígenes: Un Marco Multiagente para Descubrir el Linaje de Datos en LLMs Post-Entrenados

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

Resumen

Support