ChatPaper.aiChatPaper

実世界から合成へ:属性付きグラウンディングを用いた数百万の多様で複雑なユーザー指示の合成

From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding

June 4, 2025
著者: Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao
cs.AI

要旨

多様で複雑かつ大規模な指示データの追求は、大規模言語モデル(LLM)を自動的に整合させるために極めて重要です。大規模に合成指示を生成する方法は存在するものの、それらは限られた基盤情報源に起因する狭い分布に留まるか、あるいは複雑さの観点で意味のある軌跡を生成できない些末な拡張に依存しています。一方、効率的な整合に寄与する指示は、通常、認知的洞察に基づいて設計され、実世界のユースケースに基づいています。本論文では、属性付き基盤付けを用いてこのような指示を合成します。これには、1)選択された実指示を特定のユーザーに基盤付けるトップダウンの属性付与プロセス、および2)ウェブ文書を活用してまず状況を生成し、その後意味のある指示を生成するボトムアップの合成プロセスが含まれます。このフレームワークにより、多様で複雑な指示を大規模に収集し、広範なウェブ文書を活用することが可能になります。具体的には、SynthQuestionsと呼ばれる100万の指示からなるデータセットを構築し、それに基づいて訓練されたモデルがいくつかの一般的なベンチマークで最先端の性能を達成し、より多くのウェブコーパスを用いることで継続的に改善されることを実証します。データ、モデル、コードはhttps://github.com/Ignoramus0817/SynthQuestionsで公開されます。
English
The pursuit of diverse, complex, and large-scale instruction data is crucial for automatically aligning large language models (LLMs). While there are methods capable of generating synthetic instructions at scale, they either suffer from limited grounding sources, leading to a narrow distribution, or rely on trivial extensions that fail to produce meaningful trajectories in terms of complexity. In contrast, instructions that benefit efficient alignment are typically crafted with cognitive insights and grounded in real-world use cases. In this paper, we synthesize such instructions using attributed grounding, which involves 1) a top-down attribution process that grounds a selective set of real instructions to situated users, and 2) a bottom-up synthesis process that leverages web documents to first generate a situation, then a meaningful instruction. This framework allows us to harvest diverse and complex instructions at scale, utilizing the vast range of web documents. Specifically, we construct a dataset of 1 million instructions, called SynthQuestions, and demonstrate that models trained on it achieve leading performance on several common benchmarks, with improvements that continually scale with more web corpora. Data, models and codes will be available at https://github.com/Ignoramus0817/SynthQuestions.
PDF152June 17, 2025