Масштабирование создания синтетических данных с 1,000,000,000 персонамиScaling Synthetic Data Creation with 1,000,000,000 Personas
Мы предлагаем новую методологию синтеза данных, основанную на персонализированном подходе, которая использует различные перспективы внутри большой языковой модели (LLM) для создания разнообразных синтетических данных. Для полного использования этой методологии в масштабе мы представляем Persona Hub - коллекцию из 1 миллиарда разнообразных персон, автоматически собранных из веб-данных. Эти 1 миллиард персон (~13% от общего населения мира), действуя как распределенные носители мирового знания, могут обращаться к практически каждой перспективе, заключенной в LLM, тем самым облегчая создание разнообразных синтетических данных в масштабе для различных сценариев. Демонстрируя примеры использования Persona Hub в синтезе высококачественных математических и логических задач, инструкций (т.е. пользовательских запросов), текстов, богатых знаниями, персонажей игр и инструментов (функций) в масштабе, мы показываем, что синтез данных, основанный на персонализированном подходе, является универсальным, масштабируемым, гибким и простым в использовании, что потенциально может привести к изменению парадигмы в создании синтетических данных и их применении на практике, что может оказать глубокое влияние на исследования и разработку LLM.