Mise à l'échelle de la création de données synthétiques avec 1 000 000 000 de personnages virtuelsScaling Synthetic Data Creation with 1,000,000,000 Personas
Nous proposons une nouvelle méthodologie de synthÚse de données pilotée par des personas, qui exploite diverses perspectives au sein d'un modÚle de langage à grande échelle (LLM) pour créer des données synthétiques variées. Pour exploiter pleinement cette méthodologie à grande échelle, nous introduisons Persona Hub -- une collection d'un milliard de personas diversifiées, automatiquement extraites de données web. Ces un milliard de personas (~13% de la population mondiale), agissant comme des vecteurs distribués de connaissances mondiales, peuvent accéder à presque toutes les perspectives encapsulées dans le LLM, facilitant ainsi la création de données synthétiques diversifiées à grande échelle pour divers scénarios. En illustrant les cas d'utilisation de Persona Hub dans la synthÚse de problÚmes de raisonnement mathématique et logique de haute qualité, d'instructions (c'est-à -dire des invites utilisateur), de textes riches en connaissances, de PNJ de jeux et d'outils (fonctions) à grande échelle, nous démontrons que la synthÚse de données pilotée par des personas est polyvalente, évolutive, flexible et facile à utiliser, ce qui pourrait entraßner un changement de paradigme dans la création et les applications de données synthétiques en pratique, ayant ainsi un impact profond sur la recherche et le développement des LLM.