For-Value: Avaliação de Dados Eficiente e Unidirecional para o Ajuste Fino de LLMs e VLMs

Resumo

A valoração de dados é essencial para aumentar a transparência e a responsabilidade dos grandes modelos de linguagem (LLMs) e modelos visão-linguagem (VLMs). No entanto, os métodos existentes geralmente dependem de cálculos de gradiente, tornando-os computacionalmente proibitivos para modelos com bilhões de parâmetros e impedindo a paralelização em lote. Neste trabalho, apresentamos o For-Value, uma estrutura de valoração de dados baseada apenas no *forward pass* que permite uma estimativa de valor eficiente e escalável em lote, mantendo a eficácia. Aproveitando o poder expressivo dos LLMs/VLMs pré-treinados, demonstramos teoricamente que a valoração de dados pode ser capturada pelo alinhamento entre as representações ocultas finais e os erros de predição na última camada. Diante dessa percepção, o For-Value calcula o valor dos dados usando uma simples expressão de forma fechada com um único *forward pass*, eliminando a necessidade de retropropagação custosa e permitindo um cálculo eficiente em lote em escala. Experimentos extensivos mostram que o For-Value iguala ou supera as linhas de base baseadas em gradiente na detecção de dados influentes e dados rotulados incorretamente, enquanto alcança melhorias significativas de eficiência.

English

Data valuation is essential for enhancing the transparency and accountability of large language models (LLMs) and vision-language models (VLMs). However, existing methods typically rely on gradient computations, making them computationally prohibitive for billion-parameter models and precluding batch parallelization. In this work, we introduce For-Value, a forward-only data valuation framework that enables efficient batch-scalable value estimation while maintaining effectiveness. Leveraging the expressive power of pretrained LLMs/VLMs, we theoretically demonstrate that data valuation can be captured by the alignment between the final hidden representations and prediction errors at the last layer. In light of this insight, For-Value computes data value using a simple closed-form expression with a single forward pass, eliminating the need for costly backpropagation and enabling efficient batch calculating at scale. Extensive experiments show that For-Value matches or outperforms gradient-based baselines in detecting influential data and mislabeled data, while achieving significant efficiency improvements.

For-Value: Avaliação de Dados Eficiente e Unidirecional para o Ajuste Fino de LLMs e VLMs

For-Value: Efficient Forward-Only Data Valuation for finetuning LLMs and VLMs

Resumo

Support