10億のペルソナを用いた合成データ生成のスケーリング
Scaling Synthetic Data Creation with 1,000,000,000 Personas
June 28, 2024
著者: Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu
cs.AI
要旨
我々は、大規模言語モデル(LLM)内の多様な視点を活用して多様な合成データを生成する、新しいパーソナ駆動型データ合成手法を提案する。この手法を大規模に活用するために、ウェブデータから自動的にキュレーションされた10億の多様なパーソナを集めた「Persona Hub」を導入する。これらの10億のパーソナ(世界総人口の約13%)は、世界知識の分散キャリアとして機能し、LLM内に封じ込められたほぼすべての視点にアクセスすることができる。これにより、様々なシナリオにおける大規模な多様な合成データの生成が容易になる。Persona Hubの使用例として、高品質な数学的・論理的推論問題、指示(ユーザープロンプト)、知識豊富なテキスト、ゲームNPC、およびツール(関数)の大規模合成を紹介し、パーソナ駆動型データ合成が汎用的でスケーラブル、柔軟性があり、使いやすいことを実証する。これにより、合成データの作成と実践への応用においてパラダイムシフトを引き起こす可能性があり、LLMの研究開発に深い影響を与えるかもしれない。
English
We propose a novel persona-driven data synthesis methodology that leverages
various perspectives within a large language model (LLM) to create diverse
synthetic data. To fully exploit this methodology at scale, we introduce
Persona Hub -- a collection of 1 billion diverse personas automatically curated
from web data. These 1 billion personas (~13% of the world's total population),
acting as distributed carriers of world knowledge, can tap into almost every
perspective encapsulated within the LLM, thereby facilitating the creation of
diverse synthetic data at scale for various scenarios. By showcasing Persona
Hub's use cases in synthesizing high-quality mathematical and logical reasoning
problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs
and tools (functions) at scale, we demonstrate persona-driven data synthesis is
versatile, scalable, flexible, and easy to use, potentially driving a paradigm
shift in synthetic data creation and applications in practice, which may have a
profound impact on LLM research and development.Summary
AI-Generated Summary