ChatPaper.aiChatPaper

VOYAGER: Ein trainingsfreier Ansatz zur Erzeugung vielfältiger Datensätze mit LLMs

VOYAGER: A Training Free Approach for Generating Diverse Datasets using LLMs

December 12, 2025
papers.authors: Avinash Amballa, Yashas Malur Saidutta, Chi-Heng Lin, Vivek Kulkarni, Srinivas Chappidi
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) werden zunehmend zur Erstellung synthetischer Datensätze für die Evaluierung und das Training nachgelagerter Modelle eingesetzt. Frühere Arbeiten haben jedoch festgestellt, dass solche generierten Daten an Diversität mangeln. In diesem Artikel stellen wir Voyager vor, einen neuartigen, prinzipienbasierten Ansatz zur Erzeugung diverser Datensätze. Unser Ansatz ist iterativ und optimiert direkt eine mathematische Größe, die die Vielfalt des Datensatzes unter Verwendung der Theorie der Determinanten-Punktprozesse maximiert. Darüber hinaus ist unser Ansatz trainingsfrei, auf Closed-Source-Modelle anwendbar und skalierbar. Neben der theoretischen Begründung für die Funktionsweise unserer Methode zeigen wir in umfassenden Experimenten, dass Voyager gängige Baseline-Ansätze deutlich übertrifft, indem es eine 1,5- bis 3-fache Steigerung der Diversität erreicht.
English
Large language models (LLMs) are increasingly being used to generate synthetic datasets for the evaluation and training of downstream models. However, prior work has noted that such generated data lacks diversity. In this paper, we propose Voyager, a novel principled approach to generate diverse datasets. Our approach is iterative and directly optimizes a mathematical quantity that optimizes the diversity of the dataset using the machinery of determinantal point processes. Furthermore, our approach is training-free, applicable to closed-source models, and scalable. In addition to providing theoretical justification for the working of our method, we also demonstrate through comprehensive experiments that Voyager significantly outperforms popular baseline approaches by providing a 1.5-3x improvement in diversity.
PDF122December 19, 2025