ZIP-FIT: Selección de Datos sin Incrustación mediante Alineación Basada en Compresión

Resumen

La selección de datos es crucial para optimizar el rendimiento del modelo de lenguaje (LM) en tareas específicas, sin embargo, la mayoría de los métodos existentes no logran considerar de manera efectiva la distribución de la tarea objetivo. Los enfoques actuales suelen ignorar por completo los requisitos específicos de la tarea o basarse en aproximaciones que no logran capturar los patrones matizados necesarios para tareas como la Autoformalización o la generación de código. Los métodos que sí consideran la distribución objetivo a menudo se basan en representaciones simplistas, a veces ruidosas, como características de n-gramas hasheados, que pueden provocar colisiones e introducir ruido. Presentamos ZIP-FIT, un marco de selección de datos que utiliza la compresión gzip para medir directamente la alineación entre los datos de entrenamiento potenciales y la distribución de la tarea objetivo. En evaluaciones exhaustivas sobre Autoformalización y generación de código en Python, ZIP-FIT supera significativamente a los baselines líderes como DSIR y D4. Los modelos entrenados con datos seleccionados por ZIP-FIT logran su menor pérdida de entropía cruzada hasta un 85.1\% más rápido que los baselines, demostrando que una mejor alineación de la tarea conduce a un aprendizaje más eficiente. Además, ZIP-FIT realiza la selección hasta un 65.8\% más rápido que DSIR y dos órdenes de magnitud más rápido que D4. Es notable que ZIP-FIT muestra que conjuntos de datos más pequeños y bien alineados a menudo superan a los más grandes pero menos específicos, demostrando que una pequeña cantidad de datos de mayor calidad es superior a una gran cantidad de datos de menor calidad. Nuestros resultados implican que la selección de datos consciente de la tarea es crucial para una adaptación de dominio eficiente, y que la compresión ofrece una forma fundamentada de medir la alineación de la tarea. Al mostrar que la selección de datos específica puede mejorar drásticamente el rendimiento específico de la tarea, nuestro trabajo proporciona nuevas perspectivas sobre la relación entre la calidad de los datos, la alineación de la tarea y la eficiencia del aprendizaje del modelo.

English

Data selection is crucial for optimizing language model (LM) performance on specific tasks, yet most existing methods fail to effectively consider the target task distribution. Current approaches either ignore task-specific requirements entirely or rely on approximations that fail to capture the nuanced patterns needed for tasks like Autoformalization or code generation. Methods that do consider the target distribution often rely on simplistic, sometimes noisy, representations, like hashed n-gram features, which can lead to collisions and introduce noise. We introduce ZIP-FIT, a data selection framework that uses gzip compression to directly measure alignment between potential training data and the target task distribution. In extensive evaluations on Autoformalization and Python code generation, ZIP-FIT significantly outperforms leading baselines like DSIR and D4. Models trained on ZIP-FIT-selected data achieve their lowest cross-entropy loss up to 85.1\% faster than baselines, demonstrating that better task alignment leads to more efficient learning. In addition, ZIP-FIT performs selection up to 65.8\% faster than DSIR and two orders of magnitude faster than D4. Notably, ZIP-FIT shows that smaller, well-aligned datasets often outperform larger but less targeted ones, demonstrating that a small amount of higher quality data is superior to a large amount of lower quality data. Our results imply that task-aware data selection is crucial for efficient domain adaptation, and that compression offers a principled way to measure task alignment. By showing that targeted data selection can dramatically improve task-specific performance, our work provides new insights into the relationship between data quality, task alignment, and model learning efficiency.

ZIP-FIT: Selección de Datos sin Incrustación mediante Alineación Basada en Compresión

ZIP-FIT: Embedding-Free Data Selection via Compression-Based Alignment

Resumen

Support