For-Value: Efficiënte Forward-Only Datawaardebepaling voor het Finetunen van LLM's en VLM's

Samenvatting

Datavaluatie is essentieel voor het verbeteren van de transparantie en verantwoordingsplicht van grote taalmodellen (LLM's) en visueel-taalkundige modellen (VLM's). Bestaande methoden zijn echter typisch afhankelijk van gradientberekeningen, wat ze rekenkundig onhaalbaar maakt voor modellen met miljarden parameters en batch-parallelisatie verhindert. In dit werk introduceren we For-Value, een forward-only datavaluatiekader dat efficiënte, batch-schaalbare waardeschatting mogelijk maakt met behoud van effectiviteit. Door gebruik te maken van de expressieve kracht van vooraf getrainde LLM's/VLM's, tonen we theoretisch aan dat datavaluatie kan worden vastgelegd door de alignering tussen de laatste verborgen representaties en voorspellingsfouten in de laatste laag. Vanuit dit inzicht berekent For-Value datawaarde met een eenvoudige gesloten uitdrukking in een enkele forward pass, waardoor de noodzaak voor kostbare backpropagatie wordt geëlimineerd en efficiënte batchberekening op grote schaal mogelijk wordt. Uitgebreide experimenten tonen aan dat For-Value gelijke tred houdt met of beter presteert dan gradient-gebaseerde baseline-methoden bij het detecteren van invloedrijke data en fout gelabelde data, terwijl het aanzienlijke efficiëntieverbeteringen bereikt.

English

Data valuation is essential for enhancing the transparency and accountability of large language models (LLMs) and vision-language models (VLMs). However, existing methods typically rely on gradient computations, making them computationally prohibitive for billion-parameter models and precluding batch parallelization. In this work, we introduce For-Value, a forward-only data valuation framework that enables efficient batch-scalable value estimation while maintaining effectiveness. Leveraging the expressive power of pretrained LLMs/VLMs, we theoretically demonstrate that data valuation can be captured by the alignment between the final hidden representations and prediction errors at the last layer. In light of this insight, For-Value computes data value using a simple closed-form expression with a single forward pass, eliminating the need for costly backpropagation and enabling efficient batch calculating at scale. Extensive experiments show that For-Value matches or outperforms gradient-based baselines in detecting influential data and mislabeled data, while achieving significant efficiency improvements.

For-Value: Efficiënte Forward-Only Datawaardebepaling voor het Finetunen van LLM's en VLM's

For-Value: Efficient Forward-Only Data Valuation for finetuning LLMs and VLMs

Samenvatting

Support