For-Value: Una Valutazione Efficiente e Unidirezionale dei Dati per il Fine-Tuning di LLM e VLM

Abstract

La valutazione dei dati è fondamentale per migliorare la trasparenza e la responsabilità dei grandi modelli linguistici (LLM) e dei modelli visione-linguaggio (VLM). Tuttavia, i metodi esistenti si basano tipicamente sul calcolo dei gradienti, rendendoli computazionalmente proibitivi per modelli con miliardi di parametri e impedendo la parallelizzazione in batch. In questo lavoro, introduciamo For-Value, un framework di valutazione dati basato esclusivamente sul forward pass che consente una stima efficiente e scalabile del valore mantenendo l'efficacia. Sfruttando il potere espressivo di LLM/VLM preaddestrati, dimostriamo teoricamente che la valutazione dei dati può essere catturata dall'allineamento tra le rappresentazioni nascoste finali e gli errori di predizione all'ultimo layer. Alla luce di questa intuizione, For-Value calcola il valore dei dati utilizzando una semplice espressione in forma chiusa con un singolo forward pass, eliminando la necessità di costose backpropagation e consentendo calcoli efficienti in batch su larga scala. Esperimenti estensivi mostrano che For-Value eguaglia o supera i baseline basati sui gradienti nell'individuare dati influenti ed etichettati erroneamente, raggiungendo al contempo significativi miglioramenti di efficienza.

English

Data valuation is essential for enhancing the transparency and accountability of large language models (LLMs) and vision-language models (VLMs). However, existing methods typically rely on gradient computations, making them computationally prohibitive for billion-parameter models and precluding batch parallelization. In this work, we introduce For-Value, a forward-only data valuation framework that enables efficient batch-scalable value estimation while maintaining effectiveness. Leveraging the expressive power of pretrained LLMs/VLMs, we theoretically demonstrate that data valuation can be captured by the alignment between the final hidden representations and prediction errors at the last layer. In light of this insight, For-Value computes data value using a simple closed-form expression with a single forward pass, eliminating the need for costly backpropagation and enabling efficient batch calculating at scale. Extensive experiments show that For-Value matches or outperforms gradient-based baselines in detecting influential data and mislabeled data, while achieving significant efficiency improvements.

For-Value: Una Valutazione Efficiente e Unidirezionale dei Dati per il Fine-Tuning di LLM e VLM

For-Value: Efficient Forward-Only Data Valuation for finetuning LLMs and VLMs

Abstract

Support