ChatPaper.aiChatPaper

VOYAGER: Un enfoque sin entrenamiento para generar conjuntos de datos diversos utilizando LLM

VOYAGER: A Training Free Approach for Generating Diverse Datasets using LLMs

December 12, 2025
Autores: Avinash Amballa, Yashas Malur Saidutta, Chi-Heng Lin, Vivek Kulkarni, Srinivas Chappidi
cs.AI

Resumen

Los modelos de lenguaje grandes (LLM) se utilizan cada vez más para generar conjuntos de datos sintéticos para la evaluación y el entrenamiento de modelos posteriores. Sin embargo, trabajos previos han señalado que dichos datos generados carecen de diversidad. En este artículo, proponemos Voyager, un nuevo enfoque basado en principios para generar conjuntos de datos diversos. Nuestro método es iterativo y optimiza directamente una magnitud matemática que maximiza la diversidad del conjunto de datos utilizando la maquinaria de los procesos puntuales determinantes. Además, nuestro enfoque no requiere entrenamiento, es aplicable a modelos de código cerrado y escalable. Además de proporcionar una justificación teórica para el funcionamiento de nuestro método, también demostramos mediante experimentos exhaustivos que Voyager supera significativamente a los enfoques base más populares, logrando una mejora de 1.5 a 3 veces en la diversidad.
English
Large language models (LLMs) are increasingly being used to generate synthetic datasets for the evaluation and training of downstream models. However, prior work has noted that such generated data lacks diversity. In this paper, we propose Voyager, a novel principled approach to generate diverse datasets. Our approach is iterative and directly optimizes a mathematical quantity that optimizes the diversity of the dataset using the machinery of determinantal point processes. Furthermore, our approach is training-free, applicable to closed-source models, and scalable. In addition to providing theoretical justification for the working of our method, we also demonstrate through comprehensive experiments that Voyager significantly outperforms popular baseline approaches by providing a 1.5-3x improvement in diversity.
PDF122December 19, 2025