Skalierung der Erstellung synthetischer Daten mit 1.000.000.000 PersonasScaling Synthetic Data Creation with 1,000,000,000 Personas
Wir schlagen eine neuartige, auf Persönlichkeiten basierende Datensynthesemethodik vor, die verschiedene Perspektiven innerhalb eines großen Sprachmodells (LLM) nutzt, um vielfältige synthetische Daten zu erstellen. Um diese Methodik im großen Maßstab voll auszuschöpfen, führen wir Persona Hub ein - eine Sammlung von 1 Milliarde vielfältigen Persönlichkeiten, die automatisch aus Webdaten kuratiert wurden. Diese 1 Milliarde Persönlichkeiten (~13% der Weltbevölkerung) fungieren als verteilte Träger des Weltwissens und können nahezu jede in dem LLM verkörperte Perspektive nutzen, um die Erstellung vielfältiger synthetischer Daten im großen Maßstab für verschiedene Szenarien zu erleichtern. Indem wir die Anwendungsfälle von Persona Hub bei der Synthese hochwertiger mathematischer und logischer Probleme, Anweisungen (d.h. Benutzeranfragen), wissensreicher Texte, Spiel-NPCs und Tools (Funktionen) im großen Maßstab vorstellen, zeigen wir, dass die auf Persönlichkeiten basierende Datensynthese vielseitig, skalierbar, flexibel und benutzerfreundlich ist. Dies könnte einen Paradigmenwechsel in der Erstellung synthetischer Daten und deren Anwendungen in der Praxis bewirken, was möglicherweise einen tiefgreifenden Einfluss auf die Forschung und Entwicklung von LLM hat.