ChatPaper.aiChatPaper

10억 개의 페르소나를 활용한 합성 데이터 생성의 확장

Scaling Synthetic Data Creation with 1,000,000,000 Personas

June 28, 2024
저자: Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu
cs.AI

초록

우리는 대규모 언어 모델(LLM) 내 다양한 관점을 활용하여 다양한 합성 데이터를 생성하는 새로운 페르소나 기반 데이터 합성 방법론을 제안한다. 이 방법론을 대규모로 효과적으로 활용하기 위해, 웹 데이터에서 자동으로 수집된 10억 개의 다양한 페르소나로 구성된 '페르소나 허브(Persona Hub)'를 소개한다. 이 10억 개의 페르소나(전 세계 인구의 약 13%)는 세계 지식의 분산된 담지자 역할을 하며, LLM 내에 담긴 거의 모든 관점을 활용할 수 있어 다양한 시나리오에서 대규모로 다양한 합성 데이터를 생성하는 것을 가능하게 한다. 페르소나 허브가 고품질의 수학적 및 논리적 추론 문제, 명령어(즉, 사용자 프롬프트), 지식이 풍부한 텍스트, 게임 NPC 및 도구(함수)를 대규모로 합성하는 데 활용된 사례를 통해, 페르소나 기반 데이터 합성이 다재다능하고 확장 가능하며 유연하고 사용하기 쉬운 방법임을 입증한다. 이는 합성 데이터 생성과 실제 응용 분야에서 패러다임 전환을 이끌어낼 잠재력을 가지며, LLM 연구 및 개발에 깊은 영향을 미칠 수 있다.
English
We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.

Summary

AI-Generated Summary

PDF1026November 29, 2024