Pre-Addestramento Basato sul Valore con Feedback a Valle
Value-Based Pre-Training with Downstream Feedback
January 29, 2026
Autori: Shuqi Ke, Giulia Fanti
cs.AI
Abstract
È possibile che una piccola quantità di informazioni verificate sugli obiettivi guidi il costoso pre-addestramento auto-supervisionato dei modelli di base? Il pre-addestramento standard ottimizza un obiettivo proxy fisso (ad esempio, la previsione del token successivo), che può allocare in modo errato le risorse computazionali lontano dalle capacità downstream di interesse. Introduciamo il V-Pretraining: un metodo value-based e modality-agnostic per un pre-addestramento continuo controllato, in cui un progettista di compiti leggero rimodella il compito di pre-addestramento per massimizzare il valore di ogni passo del gradiente.
Ad esempio, si consideri l'apprendimento auto-supervisionato (SSL) con l'aumento dei dati. Il progettista di compiti del V-Pretraining seleziona i compiti di pre-addestramento (ad esempio, le tecniche di aumento) per i quali il gradiente della loss di pre-addestramento è allineato con un gradiente calcolato su un compito downstream (ad esempio, la segmentazione delle immagini). Questo aiuta a indirizzare il pre-addestramento verso le capacità downstream rilevanti. È importante notare che il modello pre-addestrato non viene mai aggiornato con le etichette del compito downstream; queste vengono utilizzate solo per modellare il compito di pre-addestramento.
Con budget di aggiornamento del learner equivalenti, il V-Pretraining applicato a modelli linguistici da 0,5 a 7 miliardi di parametri migliora il ragionamento (GSM8K test Pass@1) fino al 18% in termini relativi rispetto alla standard previsione del token successivo, utilizzando solo il 12% degli esempi di addestramento GSM8K come feedback. Nell'SSL per la visione, miglioriamo i risultati state-of-the-art su ADE20K fino a 1,07 mIoU e riduciamo il RMSE su NYUv2, migliorando allo stesso tempo l'accuratezza lineare su ImageNet, e forniamo evidenze preliminari di una migliore efficienza dei token nel pre-addestramento continuo.
English
Can a small amount of verified goal information steer the expensive self-supervised pretraining of foundation models? Standard pretraining optimizes a fixed proxy objective (e.g., next-token prediction), which can misallocate compute away from downstream capabilities of interest. We introduce V-Pretraining: a value-based, modality-agnostic method for controlled continued pretraining in which a lightweight task designer reshapes the pretraining task to maximize the value of each gradient step. For example, consider self-supervised learning (SSL) with sample augmentation. The V-Pretraining task designer selects pretraining tasks (e.g., augmentations) for which the pretraining loss gradient is aligned with a gradient computed over a downstream task (e.g., image segmentation). This helps steer pretraining towards relevant downstream capabilities. Notably, the pretrained model is never updated on downstream task labels; they are used only to shape the pretraining task. Under matched learner update budgets, V-Pretraining of 0.5B--7B language models improves reasoning (GSM8K test Pass@1) by up to 18% relative over standard next-token prediction using only 12% of GSM8K training examples as feedback. In vision SSL, we improve the state-of-the-art results on ADE20K by up to 1.07 mIoU and reduce NYUv2 RMSE while improving ImageNet linear accuracy, and we provide pilot evidence of improved token efficiency in continued pretraining.