Mise à l'échelle de la création de données synthétiques avec 1 000 000 000 de personnages virtuels

papers.abstract

Nous proposons une nouvelle méthodologie de synthèse de données pilotée par des personas, qui exploite diverses perspectives au sein d'un modèle de langage à grande échelle (LLM) pour créer des données synthétiques variées. Pour exploiter pleinement cette méthodologie à grande échelle, nous introduisons Persona Hub -- une collection d'un milliard de personas diversifiées, automatiquement extraites de données web. Ces un milliard de personas (~13% de la population mondiale), agissant comme des vecteurs distribués de connaissances mondiales, peuvent accéder à presque toutes les perspectives encapsulées dans le LLM, facilitant ainsi la création de données synthétiques diversifiées à grande échelle pour divers scénarios. En illustrant les cas d'utilisation de Persona Hub dans la synthèse de problèmes de raisonnement mathématique et logique de haute qualité, d'instructions (c'est-à-dire des invites utilisateur), de textes riches en connaissances, de PNJ de jeux et d'outils (fonctions) à grande échelle, nous démontrons que la synthèse de données pilotée par des personas est polyvalente, évolutive, flexible et facile à utiliser, ce qui pourrait entraîner un changement de paradigme dans la création et les applications de données synthétiques en pratique, ayant ainsi un impact profond sur la recherche et le développement des LLM.

English

We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.

Mise à l'échelle de la création de données synthétiques avec 1 000 000 000 de personnages virtuels

Scaling Synthetic Data Creation with 1,000,000,000 Personas

papers.abstract

Support