Waardegebaseerde Voorafgaande Training met Feedback van Stroomafwaartse Taken
Value-Based Pre-Training with Downstream Feedback
January 29, 2026
Auteurs: Shuqi Ke, Giulia Fanti
cs.AI
Samenvatting
Kan een kleine hoeveelheid geverifieerde doelinformatie de kostbare zelfgesuperviseerde voorafgaande training van foundation models sturen? Standaard voorafgaande training optimaliseert een vaste proxy-doelstelling (bijvoorbeeld voorspelling van het volgende token), wat rekenkracht kan verplaatsen weg van downstream-capaciteiten van belang. Wij introduceren V-Pretraining: een waardegebaseerde, modaliteits-agnostische methode voor gecontroleerde voortgezette training waarin een lichtgewicht taakontwerper de voorafgaande trainingstaak hervormt om de waarde van elke gradientstap te maximaliseren. Beschouw bijvoorbeeld zelfgesuperviseerd leren (SSL) met sample-augmentatie. De V-Pretraining taakontwerper selecteert voorafgaande trainingstaken (bijvoorbeeld augmentaties) waarvoor de gradient van de voorafgaande trainingsverlies is uitgelijnd met een gradient berekend over een downstream-taak (bijvoorbeeld beeldsegmentatie). Dit helpt de voorafgaande training te sturen naar relevante downstream-capaciteiten. Opmerkelijk is dat het vooraf getrainde model nooit wordt bijgewerkt met downstream-taaklabels; deze worden alleen gebruikt om de voorafgaande trainingstaak te vormen. Onder gelijke updatebudgetten van de learner verbetert V-Pretraining van 0,5B–7B taalmodellen het redeneervermogen (GSM8K test Pass@1) met tot 18% relatief ten opzichte van standaard volgende-token-voorspelling, waarbij slechts 12% van de GSM8K-trainingsvoorbeelden als feedback wordt gebruikt. In visuele SSL verbeteren we de state-of-the-art resultaten op ADE20K met tot 1,07 mIoU en verminderen we NYUv2 RMSE terwijl we de ImageNet lineaire nauwkeurigheid verbeteren, en we leveren pilotbewijs van verbeterde token-efficiëntie in voortgezette voorafgaande training.
English
Can a small amount of verified goal information steer the expensive self-supervised pretraining of foundation models? Standard pretraining optimizes a fixed proxy objective (e.g., next-token prediction), which can misallocate compute away from downstream capabilities of interest. We introduce V-Pretraining: a value-based, modality-agnostic method for controlled continued pretraining in which a lightweight task designer reshapes the pretraining task to maximize the value of each gradient step. For example, consider self-supervised learning (SSL) with sample augmentation. The V-Pretraining task designer selects pretraining tasks (e.g., augmentations) for which the pretraining loss gradient is aligned with a gradient computed over a downstream task (e.g., image segmentation). This helps steer pretraining towards relevant downstream capabilities. Notably, the pretrained model is never updated on downstream task labels; they are used only to shape the pretraining task. Under matched learner update budgets, V-Pretraining of 0.5B--7B language models improves reasoning (GSM8K test Pass@1) by up to 18% relative over standard next-token prediction using only 12% of GSM8K training examples as feedback. In vision SSL, we improve the state-of-the-art results on ADE20K by up to 1.07 mIoU and reduce NYUv2 RMSE while improving ImageNet linear accuracy, and we provide pilot evidence of improved token efficiency in continued pretraining.