ChatPaper.aiChatPaper

Skalierung der Erstellung synthetischer Daten mit 1.000.000.000 Personas

Scaling Synthetic Data Creation with 1,000,000,000 Personas

June 28, 2024
Autoren: Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu
cs.AI

Zusammenfassung

Wir schlagen eine neuartige, auf Persönlichkeiten basierende Datensynthesemethodik vor, die verschiedene Perspektiven innerhalb eines großen Sprachmodells (LLM) nutzt, um vielfältige synthetische Daten zu erstellen. Um diese Methodik im großen Maßstab voll auszuschöpfen, führen wir Persona Hub ein - eine Sammlung von 1 Milliarde vielfältigen Persönlichkeiten, die automatisch aus Webdaten kuratiert wurden. Diese 1 Milliarde Persönlichkeiten (~13% der Weltbevölkerung) fungieren als verteilte Träger des Weltwissens und können nahezu jede in dem LLM verkörperte Perspektive nutzen, um die Erstellung vielfältiger synthetischer Daten im großen Maßstab für verschiedene Szenarien zu erleichtern. Indem wir die Anwendungsfälle von Persona Hub bei der Synthese hochwertiger mathematischer und logischer Probleme, Anweisungen (d.h. Benutzeranfragen), wissensreicher Texte, Spiel-NPCs und Tools (Funktionen) im großen Maßstab vorstellen, zeigen wir, dass die auf Persönlichkeiten basierende Datensynthese vielseitig, skalierbar, flexibel und benutzerfreundlich ist. Dies könnte einen Paradigmenwechsel in der Erstellung synthetischer Daten und deren Anwendungen in der Praxis bewirken, was möglicherweise einen tiefgreifenden Einfluss auf die Forschung und Entwicklung von LLM hat.
English
We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.

Summary

AI-Generated Summary

PDF1026November 29, 2024