VOYAGER: LLMを用いた多様なデータセット生成のためのトレーニング不要アプローチ
VOYAGER: A Training Free Approach for Generating Diverse Datasets using LLMs
December 12, 2025
著者: Avinash Amballa, Yashas Malur Saidutta, Chi-Heng Lin, Vivek Kulkarni, Srinivas Chappidi
cs.AI
要旨
大規模言語モデル(LLM)は、下流モデルの評価および訓練用の合成データセット生成にますます利用されている。しかし、従来の研究では、このような生成データは多様性に欠けることが指摘されている。本論文では、多様なデータセットを生成するための新しい原理に基づくアプローチ「Voyager」を提案する。本アプローチは反復的であり、行列点過程の仕組みを用いてデータセットの多様性を最適化する数学的量を直接最適化する。さらに、本アプローチは訓練不要、クローズドソースモデルに適用可能、かつスケーラブルである。本手法の動作に関する理論的根拠を提供するだけでなく、包括的な実験を通じて、Voyagerが多様性において1.5~3倍の向上を実現し、一般的なベースラインアプローチを大幅に上回ることを実証する。
English
Large language models (LLMs) are increasingly being used to generate synthetic datasets for the evaluation and training of downstream models. However, prior work has noted that such generated data lacks diversity. In this paper, we propose Voyager, a novel principled approach to generate diverse datasets. Our approach is iterative and directly optimizes a mathematical quantity that optimizes the diversity of the dataset using the machinery of determinantal point processes. Furthermore, our approach is training-free, applicable to closed-source models, and scalable. In addition to providing theoretical justification for the working of our method, we also demonstrate through comprehensive experiments that Voyager significantly outperforms popular baseline approaches by providing a 1.5-3x improvement in diversity.