ChatPaper.aiChatPaper

Het schalen van synthetische data-aanmaak met 1.000.000.000 persona's

Scaling Synthetic Data Creation with 1,000,000,000 Personas

June 28, 2024
Auteurs: Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu
cs.AI

Samenvatting

Wij stellen een nieuwe persona-gestuurde data-synthesemethodologie voor die gebruikmaakt van verschillende perspectieven binnen een groot taalmodel (LLM) om diverse synthetische data te creëren. Om deze methodologie op grote schaal optimaal te benutten, introduceren we Persona Hub – een verzameling van 1 miljard diverse persona's die automatisch zijn samengesteld uit webdata. Deze 1 miljard persona's (~13% van de wereldbevolking), die fungeren als gedistribueerde dragers van wereldkennis, kunnen bijna elk perspectief binnen het LLM aanspreken, waardoor de creatie van diverse synthetische data op grote schaal voor verschillende scenario's wordt gefaciliteerd. Door de gebruiksmogelijkheden van Persona Hub te demonstreren bij het synthetiseren van hoogwaardige wiskundige en logische redeneerproblemen, instructies (d.w.z. gebruikersprompts), kennisrijke teksten, game-NPC's en tools (functies) op grote schaal, tonen we aan dat persona-gestuurde data-synthese veelzijdig, schaalbaar, flexibel en gebruiksvriendelijk is. Dit kan mogelijk een paradigmaverschuiving teweegbrengen in de creatie en toepassing van synthetische data in de praktijk, wat een diepgaande impact kan hebben op het onderzoek en de ontwikkeling van LLM's.
English
We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.
PDF1046November 29, 2024