VOYAGER: LLM을 활용한 다양한 데이터셋 생성의 훈련 불필요 접근법
VOYAGER: A Training Free Approach for Generating Diverse Datasets using LLMs
December 12, 2025
저자: Avinash Amballa, Yashas Malur Saidutta, Chi-Heng Lin, Vivek Kulkarni, Srinivas Chappidi
cs.AI
초록
대규모 언어 모델(LLM)은 하위 모델의 평가 및 훈련을 위한 합성 데이터셋 생성에 점점 더 많이 활용되고 있습니다. 그러나 기존 연구에서는 이러한 생성 데이터가 다양성을 결여한다는 점을 지적해왔습니다. 본 논문에서는 다양한 데이터셋을 생성하기 위한 새로운 원리 기반 접근법인 Voyager를 제안합니다. 우리의 접근법은 반복적이며, 결정점 과정 기법을 활용하여 데이터셋의 다양성을 최적화하는 수학적 양을 직접 최적화합니다. 더불어, 이 방법은 훈련이 필요하지 않으며, 비공개 모델에도 적용 가능하고 확장성이 있습니다. 우리의 방법이 작동하는 이론적 근거를 제시하는 것뿐만 아니라, 포괄적인 실험을 통해 Voyager가 다양성 측면에서 1.5~3배의 향상을 제공하여 일반적인 기준 방법들을 크게 능가함을 입증합니다.
English
Large language models (LLMs) are increasingly being used to generate synthetic datasets for the evaluation and training of downstream models. However, prior work has noted that such generated data lacks diversity. In this paper, we propose Voyager, a novel principled approach to generate diverse datasets. Our approach is iterative and directly optimizes a mathematical quantity that optimizes the diversity of the dataset using the machinery of determinantal point processes. Furthermore, our approach is training-free, applicable to closed-source models, and scalable. In addition to providing theoretical justification for the working of our method, we also demonstrate through comprehensive experiments that Voyager significantly outperforms popular baseline approaches by providing a 1.5-3x improvement in diversity.