Scalabilità nella Creazione di Dati Sintetici con 1.000.000.000 di Personaggi
Scaling Synthetic Data Creation with 1,000,000,000 Personas
June 28, 2024
Autori: Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu
cs.AI
Abstract
Proponiamo una metodologia innovativa per la sintesi di dati basata su personaggi, che sfrutta diverse prospettive all'interno di un modello linguistico di grandi dimensioni (LLM) per creare dati sintetici diversificati. Per sfruttare appieno questa metodologia su larga scala, introduciamo Persona Hub — una raccolta di 1 miliardo di personaggi diversificati, curati automaticamente da dati web. Questi 1 miliardo di personaggi (circa il 13% della popolazione mondiale), agendo come portatori distribuiti di conoscenza globale, possono attingere a quasi ogni prospettiva racchiusa nel LLM, facilitando così la creazione di dati sintetici diversificati su larga scala per vari scenari. Mostrando i casi d'uso di Persona Hub nella sintesi di problemi di ragionamento matematico e logico di alta qualità, istruzioni (cioè prompt utente), testi ricchi di conoscenza, NPC di giochi e strumenti (funzioni) su larga scala, dimostriamo che la sintesi di dati guidata da personaggi è versatile, scalabile, flessibile e facile da usare, potenzialmente in grado di guidare un cambiamento di paradigma nella creazione e applicazione pratica di dati sintetici, il che potrebbe avere un impatto profondo sulla ricerca e lo sviluppo dei LLM.
English
We propose a novel persona-driven data synthesis methodology that leverages
various perspectives within a large language model (LLM) to create diverse
synthetic data. To fully exploit this methodology at scale, we introduce
Persona Hub -- a collection of 1 billion diverse personas automatically curated
from web data. These 1 billion personas (~13% of the world's total population),
acting as distributed carriers of world knowledge, can tap into almost every
perspective encapsulated within the LLM, thereby facilitating the creation of
diverse synthetic data at scale for various scenarios. By showcasing Persona
Hub's use cases in synthesizing high-quality mathematical and logical reasoning
problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs
and tools (functions) at scale, we demonstrate persona-driven data synthesis is
versatile, scalable, flexible, and easy to use, potentially driving a paradigm
shift in synthetic data creation and applications in practice, which may have a
profound impact on LLM research and development.