기원 추적: 사후 학습된 LLM의 데이터 계보를 파헤치는 다중 에이전트 프레임워크
Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs
April 12, 2026
저자: Yu Li, Xiaoran Shang, Qizhi Pei, Yun Zhu, Xin Gao, Honglin Lin, Zhanping Zhong, Zhuoshi Pan, Zheng Liu, Xiaoyang Wang, Conghui He, Dahua Lin, Feng Zhao, Lijun Wu
cs.AI
초록
사후 훈련 데이터는 대규모 언어 모델(LLM)의 능력을 형성하는 데 핵심적인 역할을 하지만, 데이터셋은 종종 고립된 산물로 취급되며 그 진화를 이루는 체계적 연결성을 간과합니다. 이러한 복잡한 관계를 해체하기 위해 우리는 LLM 생태계에 데이터 계보 개념을 도입하고 데이터셋 개발의 진화 그래프를 재구성하는 자동화된 다중 에이전트 프레임워크를 제안합니다. 대규모 계보 분석을 통해 수학 중심 데이터셋의 수직 정제 및 일반 영역 코퍼스의 수평 통합과 같은 영역별 구조적 패턴을 규명합니다. 더 나아가, 암묵적 데이터셋 교차로에 의한 구조적 중복 및 계보 경로를 따른 벤치마크 오염 전파와 같은 만연한 체계적 문제점을 발견합니다. 데이터 구축에 대한 계보 분석의 실용적 가치를 입증하기 위해, 재구성된 계보 그래프를 활용하여 계보 인식 다양성 중심 데이터셋을 생성합니다. 상류 근원 지점에 명령어 샘플링을 고정함으로써 이 접근법은 하류의 동질화 및 숨겨진 중복을 완화하여 더 다양화된 사후 훈련 코퍼스를 산출합니다. 우리는 또한 대규모 데이터 생태계에 대한 샘플 수준 데이터셋 비교의 효율적이고 강력한 위상학적 대안으로 계보 중심 분석을 부각합니다. 명시적 계보 구조에 데이터 구축을 기반을 둠으로써, 우리의 연구는 사후 훈련 데이터 관리가 더 체계적이고 제어 가능한 패러다임으로 나아가도록 발전시킵니다.
English
Post-training data plays a pivotal role in shaping the capabilities of Large Language Models (LLMs), yet datasets are often treated as isolated artifacts, overlooking the systemic connections that underlie their evolution. To disentangle these complex relationships, we introduce the concept of data lineage to the LLM ecosystem and propose an automated multi-agent framework to reconstruct the evolutionary graph of dataset development. Through large-scale lineage analysis, we characterize domain-specific structural patterns, such as vertical refinement in math-oriented datasets and horizontal aggregation in general-domain corpora. Moreover, we uncover pervasive systemic issues, including structural redundancy induced by implicit dataset intersections and the propagation of benchmark contamination along lineage paths. To demonstrate the practical value of lineage analysis for data construction, we leverage the reconstructed lineage graph to create a lineage-aware diversity-oriented dataset. By anchoring instruction sampling at upstream root sources, this approach mitigates downstream homogenization and hidden redundancy, yielding a more diverse post-training corpus. We further highlight lineage-centric analysis as an efficient and robust topological alternative to sample-level dataset comparison for large-scale data ecosystems. By grounding data construction in explicit lineage structures, our work advances post-training data curation toward a more systematic and controllable paradigm.