ChatPaper.aiChatPaper

ZIP-FIT: Seleção de Dados sem Incorporação por Alinhamento Baseado em Compressão

ZIP-FIT: Embedding-Free Data Selection via Compression-Based Alignment

October 23, 2024
Autores: Elyas Obbad, Iddah Mlauzi, Brando Miranda, Rylan Schaeffer, Kamal Obbad, Suhana Bedi, Sanmi Koyejo
cs.AI

Resumo

A seleção de dados é crucial para otimizar o desempenho do modelo de linguagem (LM) em tarefas específicas, no entanto, a maioria dos métodos existentes falha em considerar efetivamente a distribuição da tarefa alvo. Abordagens atuais geralmente ignoram completamente os requisitos específicos da tarefa ou dependem de aproximações que não capturam os padrões sutis necessários para tarefas como Autoformalização ou geração de código. Métodos que consideram a distribuição alvo muitas vezes dependem de representações simplistas, por vezes ruidosas, como características de n-grama hash, que podem resultar em colisões e introduzir ruído. Apresentamos o ZIP-FIT, um framework de seleção de dados que utiliza compressão gzip para medir diretamente o alinhamento entre os dados de treinamento potenciais e a distribuição da tarefa alvo. Em avaliações extensas em Autoformalização e geração de código Python, o ZIP-FIT supera significativamente baselines líderes como DSIR e D4. Modelos treinados com dados selecionados pelo ZIP-FIT alcançam sua menor perda de entropia cruzada até 85,1\% mais rapidamente do que os baselines, demonstrando que um melhor alinhamento da tarefa leva a uma aprendizagem mais eficiente. Além disso, o ZIP-FIT realiza a seleção até 65,8\% mais rapidamente do que o DSIR e duas ordens de magnitude mais rápido do que o D4. Notavelmente, o ZIP-FIT mostra que conjuntos de dados menores e bem alinhados frequentemente superam os maiores, mas menos direcionados, demonstrando que uma pequena quantidade de dados de alta qualidade é superior a uma grande quantidade de dados de baixa qualidade. Nossos resultados implicam que a seleção de dados consciente da tarefa é crucial para uma adaptação de domínio eficiente, e que a compressão oferece uma maneira fundamentada de medir o alinhamento da tarefa. Ao mostrar que a seleção de dados direcionada pode melhorar drasticamente o desempenho específico da tarefa, nosso trabalho fornece novas perspectivas sobre a relação entre qualidade dos dados, alinhamento da tarefa e eficiência da aprendizagem do modelo.
English
Data selection is crucial for optimizing language model (LM) performance on specific tasks, yet most existing methods fail to effectively consider the target task distribution. Current approaches either ignore task-specific requirements entirely or rely on approximations that fail to capture the nuanced patterns needed for tasks like Autoformalization or code generation. Methods that do consider the target distribution often rely on simplistic, sometimes noisy, representations, like hashed n-gram features, which can lead to collisions and introduce noise. We introduce ZIP-FIT, a data selection framework that uses gzip compression to directly measure alignment between potential training data and the target task distribution. In extensive evaluations on Autoformalization and Python code generation, ZIP-FIT significantly outperforms leading baselines like DSIR and D4. Models trained on ZIP-FIT-selected data achieve their lowest cross-entropy loss up to 85.1\% faster than baselines, demonstrating that better task alignment leads to more efficient learning. In addition, ZIP-FIT performs selection up to 65.8\% faster than DSIR and two orders of magnitude faster than D4. Notably, ZIP-FIT shows that smaller, well-aligned datasets often outperform larger but less targeted ones, demonstrating that a small amount of higher quality data is superior to a large amount of lower quality data. Our results imply that task-aware data selection is crucial for efficient domain adaptation, and that compression offers a principled way to measure task alignment. By showing that targeted data selection can dramatically improve task-specific performance, our work provides new insights into the relationship between data quality, task alignment, and model learning efficiency.

Summary

AI-Generated Summary

PDF62November 16, 2024