ChatPaper.aiChatPaper

Escalando la Creación de Datos Sintéticos con 1,000,000,000 de Personas

Scaling Synthetic Data Creation with 1,000,000,000 Personas

June 28, 2024
Autores: Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu
cs.AI

Resumen

Proponemos una metodología novedosa de síntesis de datos basada en personajes que aprovecha diversas perspectivas dentro de un modelo de lenguaje de gran escala (LLM) para crear datos sintéticos diversos. Para explotar plenamente esta metodología a gran escala, presentamos Persona Hub: una colección de mil millones de personajes diversos curados automáticamente a partir de datos web. Estos mil millones de personajes (~13% de la población mundial), actuando como portadores distribuidos de conocimiento global, pueden acceder a casi todas las perspectivas encapsuladas dentro del LLM, facilitando así la creación de datos sintéticos diversos a gran escala para diversos escenarios. Al mostrar los casos de uso de Persona Hub en la síntesis de problemas de razonamiento matemático y lógico de alta calidad, instrucciones (es decir, indicaciones de usuario), textos ricos en conocimiento, NPCs de juegos y herramientas (funciones) a gran escala, demostramos que la síntesis de datos basada en personajes es versátil, escalable, flexible y fácil de usar, lo que podría impulsar un cambio de paradigma en la creación y aplicaciones de datos sintéticos en la práctica, con un impacto profundo en la investigación y desarrollo de LLM.
English
We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.

Summary

AI-Generated Summary

PDF1026November 29, 2024