실제에서 합성으로: 속성 기반 근거가 포함된 수백만 개의 다양하고 복잡한 사용자 지시문 합성하기
From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding
June 4, 2025
저자: Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao
cs.AI
초록
다양하고 복잡하며 대규모의 명령어 데이터를 추구하는 것은 대형 언어 모델(LLM)을 자동으로 정렬하는 데 있어 매우 중요합니다. 대규모로 합성 명령어를 생성할 수 있는 방법들이 있지만, 이들은 제한된 근거 소스로 인해 좁은 분포를 보이거나, 복잡성 측면에서 의미 있는 궤적을 생성하지 못하는 사소한 확장에 의존하는 경우가 많습니다. 반면, 효율적인 정렬에 도움을 주는 명령어들은 일반적으로 인지적 통찰을 바탕으로 제작되고 실제 사용 사례에 근거를 두고 있습니다. 본 논문에서는 속성 기반 근거를 사용하여 이러한 명령어를 합성합니다. 이는 1) 선택된 실제 명령어를 특정 사용자에게 귀속시키는 상향식 귀속 과정과, 2) 웹 문서를 활용하여 먼저 상황을 생성한 후 의미 있는 명령어를 생성하는 하향식 합성 과정으로 구성됩니다. 이 프레임워크를 통해 우리는 다양한 웹 문서를 활용하여 대규모로 다양하고 복잡한 명령어를 수집할 수 있습니다. 구체적으로, 우리는 'SynthQuestions'라는 100만 개의 명령어 데이터셋을 구축하고, 이를 통해 훈련된 모델이 여러 일반적인 벤치마크에서 선도적인 성능을 달성하며, 더 많은 웹 코퍼스를 사용할수록 지속적으로 개선되는 것을 보여줍니다. 데이터, 모델 및 코드는 https://github.com/Ignoramus0817/SynthQuestions에서 제공될 예정입니다.
English
The pursuit of diverse, complex, and large-scale instruction data is crucial
for automatically aligning large language models (LLMs). While there are
methods capable of generating synthetic instructions at scale, they either
suffer from limited grounding sources, leading to a narrow distribution, or
rely on trivial extensions that fail to produce meaningful trajectories in
terms of complexity. In contrast, instructions that benefit efficient alignment
are typically crafted with cognitive insights and grounded in real-world use
cases. In this paper, we synthesize such instructions using attributed
grounding, which involves 1) a top-down attribution process that grounds a
selective set of real instructions to situated users, and 2) a bottom-up
synthesis process that leverages web documents to first generate a situation,
then a meaningful instruction. This framework allows us to harvest diverse and
complex instructions at scale, utilizing the vast range of web documents.
Specifically, we construct a dataset of 1 million instructions, called
SynthQuestions, and demonstrate that models trained on it achieve leading
performance on several common benchmarks, with improvements that continually
scale with more web corpora. Data, models and codes will be available at
https://github.com/Ignoramus0817/SynthQuestions.