10억 개의 페르소나를 활용한 합성 데이터 생성의 확장Scaling Synthetic Data Creation with 1,000,000,000 Personas
우리는 대규모 언어 모델(LLM) 내 다양한 관점을 활용하여 다양한 합성 데이터를 생성하는 새로운 페르소나 기반 데이터 합성 방법론을 제안한다. 이 방법론을 대규모로 효과적으로 활용하기 위해, 웹 데이터에서 자동으로 수집된 10억 개의 다양한 페르소나로 구성된 '페르소나 허브(Persona Hub)'를 소개한다. 이 10억 개의 페르소나(전 세계 인구의 약 13%)는 세계 지식의 분산된 담지자 역할을 하며, LLM 내에 담긴 거의 모든 관점을 활용할 수 있어 다양한 시나리오에서 대규모로 다양한 합성 데이터를 생성하는 것을 가능하게 한다. 페르소나 허브가 고품질의 수학적 및 논리적 추론 문제, 명령어(즉, 사용자 프롬프트), 지식이 풍부한 텍스트, 게임 NPC 및 도구(함수)를 대규모로 합성하는 데 활용된 사례를 통해, 페르소나 기반 데이터 합성이 다재다능하고 확장 가능하며 유연하고 사용하기 쉬운 방법임을 입증한다. 이는 합성 데이터 생성과 실제 응용 분야에서 패러다임 전환을 이끌어낼 잠재력을 가지며, LLM 연구 및 개발에 깊은 영향을 미칠 수 있다.