Mise à l'échelle de la création de données synthétiques avec 1 000 000 000 de personnages virtuels
Scaling Synthetic Data Creation with 1,000,000,000 Personas
June 28, 2024
Auteurs: Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu
cs.AI
Résumé
Nous proposons une nouvelle méthodologie de synthèse de données pilotée par des personas, qui exploite diverses perspectives au sein d'un modèle de langage à grande échelle (LLM) pour créer des données synthétiques variées. Pour exploiter pleinement cette méthodologie à grande échelle, nous introduisons Persona Hub -- une collection d'un milliard de personas diversifiées, automatiquement extraites de données web. Ces un milliard de personas (~13% de la population mondiale), agissant comme des vecteurs distribués de connaissances mondiales, peuvent accéder à presque toutes les perspectives encapsulées dans le LLM, facilitant ainsi la création de données synthétiques diversifiées à grande échelle pour divers scénarios. En illustrant les cas d'utilisation de Persona Hub dans la synthèse de problèmes de raisonnement mathématique et logique de haute qualité, d'instructions (c'est-à-dire des invites utilisateur), de textes riches en connaissances, de PNJ de jeux et d'outils (fonctions) à grande échelle, nous démontrons que la synthèse de données pilotée par des personas est polyvalente, évolutive, flexible et facile à utiliser, ce qui pourrait entraîner un changement de paradigme dans la création et les applications de données synthétiques en pratique, ayant ainsi un impact profond sur la recherche et le développement des LLM.
English
We propose a novel persona-driven data synthesis methodology that leverages
various perspectives within a large language model (LLM) to create diverse
synthetic data. To fully exploit this methodology at scale, we introduce
Persona Hub -- a collection of 1 billion diverse personas automatically curated
from web data. These 1 billion personas (~13% of the world's total population),
acting as distributed carriers of world knowledge, can tap into almost every
perspective encapsulated within the LLM, thereby facilitating the creation of
diverse synthetic data at scale for various scenarios. By showcasing Persona
Hub's use cases in synthesizing high-quality mathematical and logical reasoning
problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs
and tools (functions) at scale, we demonstrate persona-driven data synthesis is
versatile, scalable, flexible, and easy to use, potentially driving a paradigm
shift in synthetic data creation and applications in practice, which may have a
profound impact on LLM research and development.Summary
AI-Generated Summary