Прослеживая истоки: Мультиагентный фреймворк для выявления происхождения данных в посттренированных больших языковых моделях

Аннотация

Данные посттренировочной дообучения играют ключевую роль в формировании возможностей больших языковых моделей (LLM), однако наборы данных часто рассматриваются как изолированные артефакты, игнорируя системные связи, лежащие в основе их эволюции. Для распутывания этих сложных взаимосвязей мы вводим концепцию происхождения данных (data lineage) в экосистему LLM и предлагаем автоматизированную многоагентную систему для реконструкции графа эволюции разработки наборов данных. Посредством масштабного анализа происхождения мы выявляем предметно-ориентированные структурные паттерны, такие как вертикальное уточнение в математически ориентированных наборах данных и горизонтальная агрегация в общедоменных корпусах. Более того, мы обнаруживаем повсеместные системные проблемы, включая структурную избыточность, вызванную неявными пересечениями наборов данных, и распространение загрязнения бенчмарков вдоль цепочек происхождения. Чтобы продемонстрировать практическую ценность анализа происхождения для построения данных, мы используем реконструированный граф происхождения для создания набора данных, ориентированного на разнообразие с учетом происхождения. Путем привязки сэмплирования инструкций к корневым источникам этот подход смягчает проблему гомогенизации на последующих этапах и скрытой избыточности, создавая более разнообразный посттренировочный корпус. Мы также подчеркиваем, что анализ, центрированный на происхождении, служит эффективной и надежной топологической альтернативой поуровневому сравнению наборов данных для крупномасштабных экосистем данных. Обосновывая построение данных на явных структурах происхождения, наша работа продвигает кураторство посттренировочных данных в сторону более систематической и контролируемой парадигмы.

English

Post-training data plays a pivotal role in shaping the capabilities of Large Language Models (LLMs), yet datasets are often treated as isolated artifacts, overlooking the systemic connections that underlie their evolution. To disentangle these complex relationships, we introduce the concept of data lineage to the LLM ecosystem and propose an automated multi-agent framework to reconstruct the evolutionary graph of dataset development. Through large-scale lineage analysis, we characterize domain-specific structural patterns, such as vertical refinement in math-oriented datasets and horizontal aggregation in general-domain corpora. Moreover, we uncover pervasive systemic issues, including structural redundancy induced by implicit dataset intersections and the propagation of benchmark contamination along lineage paths. To demonstrate the practical value of lineage analysis for data construction, we leverage the reconstructed lineage graph to create a lineage-aware diversity-oriented dataset. By anchoring instruction sampling at upstream root sources, this approach mitigates downstream homogenization and hidden redundancy, yielding a more diverse post-training corpus. We further highlight lineage-centric analysis as an efficient and robust topological alternative to sample-level dataset comparison for large-scale data ecosystems. By grounding data construction in explicit lineage structures, our work advances post-training data curation toward a more systematic and controllable paradigm.

Прослеживая истоки: Мультиагентный фреймворк для выявления происхождения данных в посттренированных больших языковых моделях

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

Аннотация

Support