Rastreando as Origens: Uma Estrutura Multiagente para Revelar a Linhagem de Dados em LLMs Pós-Treinados

Resumo

Os dados de pós-treinamento desempenham um papel fundamental na moldagem das capacidades dos Grandes Modelos de Linguagem (LLMs), contudo, os conjuntos de dados são frequentemente tratados como artefactos isolados, negligenciando as conexões sistémicas que sustentam a sua evolução. Para deslindar estas relações complexas, introduzimos o conceito de linhagem de dados no ecossistema dos LLMs e propomos uma estrutura automatizada de multiagentes para reconstruir o gráfico evolutivo do desenvolvimento de conjuntos de dados. Através de uma análise de linhagem em larga escala, caracterizamos padrões estruturais específicos de domínio, como o refinamento vertical em conjuntos de dados orientados para a matemática e a agregação horizontal em corpora de domínio geral. Além disso, descobrimos problemas sistémicos generalizados, incluindo a redundância estrutural induzida por interseções implícitas de conjuntos de dados e a propagação da contaminação de *benchmarks* ao longo dos caminhos de linhagem. Para demonstrar o valor prático da análise de linhagem para a construção de dados, aproveitamos o gráfico de linhagem reconstruído para criar um conjunto de dados orientado para a diversidade e consciente da linhagem. Ao ancorar a amostragem de instruções em fontes raiz a montante, esta abordagem mitiga a homogeneização a jusante e a redundância oculta, produzindo um corpus de pós-treinamento mais diversificado. Destacamos ainda a análise centrada na linhagem como uma alternativa topológica eficiente e robusta à comparação de conjuntos de dados a nível de amostra para ecossistemas de dados em larga escala. Ao fundamentar a construção de dados em estruturas de linhagem explícitas, o nosso trabalho avança a curadoria de dados de pós-treinamento no sentido de um paradigma mais sistemático e controlável.

English

Post-training data plays a pivotal role in shaping the capabilities of Large Language Models (LLMs), yet datasets are often treated as isolated artifacts, overlooking the systemic connections that underlie their evolution. To disentangle these complex relationships, we introduce the concept of data lineage to the LLM ecosystem and propose an automated multi-agent framework to reconstruct the evolutionary graph of dataset development. Through large-scale lineage analysis, we characterize domain-specific structural patterns, such as vertical refinement in math-oriented datasets and horizontal aggregation in general-domain corpora. Moreover, we uncover pervasive systemic issues, including structural redundancy induced by implicit dataset intersections and the propagation of benchmark contamination along lineage paths. To demonstrate the practical value of lineage analysis for data construction, we leverage the reconstructed lineage graph to create a lineage-aware diversity-oriented dataset. By anchoring instruction sampling at upstream root sources, this approach mitigates downstream homogenization and hidden redundancy, yielding a more diverse post-training corpus. We further highlight lineage-centric analysis as an efficient and robust topological alternative to sample-level dataset comparison for large-scale data ecosystems. By grounding data construction in explicit lineage structures, our work advances post-training data curation toward a more systematic and controllable paradigm.

Rastreando as Origens: Uma Estrutura Multiagente para Revelar a Linhagem de Dados em LLMs Pós-Treinados

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

Resumo

Support