Масштабирование создания синтетических данных с 1,000,000,000 персонами
Scaling Synthetic Data Creation with 1,000,000,000 Personas
June 28, 2024
Авторы: Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu
cs.AI
Аннотация
Мы предлагаем новую методологию синтеза данных, основанную на персонализированном подходе, которая использует различные перспективы внутри большой языковой модели (LLM) для создания разнообразных синтетических данных. Для полного использования этой методологии в масштабе мы представляем Persona Hub - коллекцию из 1 миллиарда разнообразных персон, автоматически собранных из веб-данных. Эти 1 миллиард персон (~13% от общего населения мира), действуя как распределенные носители мирового знания, могут обращаться к практически каждой перспективе, заключенной в LLM, тем самым облегчая создание разнообразных синтетических данных в масштабе для различных сценариев. Демонстрируя примеры использования Persona Hub в синтезе высококачественных математических и логических задач, инструкций (т.е. пользовательских запросов), текстов, богатых знаниями, персонажей игр и инструментов (функций) в масштабе, мы показываем, что синтез данных, основанный на персонализированном подходе, является универсальным, масштабируемым, гибким и простым в использовании, что потенциально может привести к изменению парадигмы в создании синтетических данных и их применении на практике, что может оказать глубокое влияние на исследования и разработку LLM.
English
We propose a novel persona-driven data synthesis methodology that leverages
various perspectives within a large language model (LLM) to create diverse
synthetic data. To fully exploit this methodology at scale, we introduce
Persona Hub -- a collection of 1 billion diverse personas automatically curated
from web data. These 1 billion personas (~13% of the world's total population),
acting as distributed carriers of world knowledge, can tap into almost every
perspective encapsulated within the LLM, thereby facilitating the creation of
diverse synthetic data at scale for various scenarios. By showcasing Persona
Hub's use cases in synthesizing high-quality mathematical and logical reasoning
problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs
and tools (functions) at scale, we demonstrate persona-driven data synthesis is
versatile, scalable, flexible, and easy to use, potentially driving a paradigm
shift in synthetic data creation and applications in practice, which may have a
profound impact on LLM research and development.Summary
AI-Generated Summary