ChatPaper.aiChatPaper

Escalando a Criação de Dados Sintéticos com 1.000.000.000 Personas

Scaling Synthetic Data Creation with 1,000,000,000 Personas

June 28, 2024
Autores: Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu
cs.AI

Resumo

Propomos uma metodologia inovadora de síntese de dados orientada por persona que aproveita diversas perspectivas dentro de um grande modelo de linguagem (LLM) para criar dados sintéticos diversos. Para explorar totalmente essa metodologia em grande escala, introduzimos o Persona Hub - uma coleção de 1 bilhão de personas diversas automaticamente selecionadas a partir de dados da web. Essas 1 bilhão de personas (~13% da população mundial total), atuando como portadoras distribuídas do conhecimento mundial, podem acessar quase todas as perspectivas encapsuladas dentro do LLM, facilitando assim a criação de dados sintéticos diversos em grande escala para vários cenários. Ao mostrar os casos de uso do Persona Hub na síntese de problemas de raciocínio matemático e lógico de alta qualidade, instruções (ou seja, solicitações de usuário), textos ricos em conhecimento, NPCs de jogos e ferramentas (funções) em grande escala, demonstramos que a síntese de dados orientada por persona é versátil, escalável, flexível e fácil de usar, potencialmente impulsionando uma mudança de paradigma na criação de dados sintéticos e suas aplicações na prática, o que pode ter um impacto profundo na pesquisa e desenvolvimento de LLM.
English
We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.
PDF1056November 29, 2024