VOYAGER: Uma Abordagem sem Treinamento para Gerar Conjuntos de Dados Diversos Usando LLMs
VOYAGER: A Training Free Approach for Generating Diverse Datasets using LLMs
December 12, 2025
Autores: Avinash Amballa, Yashas Malur Saidutta, Chi-Heng Lin, Vivek Kulkarni, Srinivas Chappidi
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) estão a ser cada vez mais utilizados para gerar conjuntos de dados sintéticos para a avaliação e treino de modelos subsequentes. No entanto, trabalhos anteriores notaram que estes dados gerados carecem de diversidade. Neste artigo, propomos o Voyager, uma nova abordagem fundamentada para gerar conjuntos de dados diversos. A nossa abordagem é iterativa e otimiza diretamente uma quantidade matemática que maximiza a diversidade do conjunto de dados, utilizando a estrutura dos processos pontuais determinantis. Adicionalmente, a nossa abordagem não requer treino, é aplicável a modelos de código fechado e escalável. Para além de fornecer uma justificação teórica para o funcionamento do nosso método, demonstramos também através de experiências abrangentes que o Voyager supera significativamente as abordagens de base populares, proporcionando um aumento de 1,5 a 3 vezes na diversidade.
English
Large language models (LLMs) are increasingly being used to generate synthetic datasets for the evaluation and training of downstream models. However, prior work has noted that such generated data lacks diversity. In this paper, we propose Voyager, a novel principled approach to generate diverse datasets. Our approach is iterative and directly optimizes a mathematical quantity that optimizes the diversity of the dataset using the machinery of determinantal point processes. Furthermore, our approach is training-free, applicable to closed-source models, and scalable. In addition to providing theoretical justification for the working of our method, we also demonstrate through comprehensive experiments that Voyager significantly outperforms popular baseline approaches by providing a 1.5-3x improvement in diversity.