Waardegebaseerde Voorafgaande Training met Feedback van Stroomafwaartse Taken

Samenvatting

Kan een kleine hoeveelheid geverifieerde doelinformatie de kostbare zelfgesuperviseerde voorafgaande training van foundation models sturen? Standaard voorafgaande training optimaliseert een vaste proxy-doelstelling (bijvoorbeeld voorspelling van het volgende token), wat rekenkracht kan verplaatsen weg van downstream-capaciteiten van belang. Wij introduceren V-Pretraining: een waardegebaseerde, modaliteits-agnostische methode voor gecontroleerde voortgezette training waarin een lichtgewicht taakontwerper de voorafgaande trainingstaak hervormt om de waarde van elke gradientstap te maximaliseren. Beschouw bijvoorbeeld zelfgesuperviseerd leren (SSL) met sample-augmentatie. De V-Pretraining taakontwerper selecteert voorafgaande trainingstaken (bijvoorbeeld augmentaties) waarvoor de gradient van de voorafgaande trainingsverlies is uitgelijnd met een gradient berekend over een downstream-taak (bijvoorbeeld beeldsegmentatie). Dit helpt de voorafgaande training te sturen naar relevante downstream-capaciteiten. Opmerkelijk is dat het vooraf getrainde model nooit wordt bijgewerkt met downstream-taaklabels; deze worden alleen gebruikt om de voorafgaande trainingstaak te vormen. Onder gelijke updatebudgetten van de learner verbetert V-Pretraining van 0,5B–7B taalmodellen het redeneervermogen (GSM8K test Pass@1) met tot 18% relatief ten opzichte van standaard volgende-token-voorspelling, waarbij slechts 12% van de GSM8K-trainingsvoorbeelden als feedback wordt gebruikt. In visuele SSL verbeteren we de state-of-the-art resultaten op ADE20K met tot 1,07 mIoU en verminderen we NYUv2 RMSE terwijl we de ImageNet lineaire nauwkeurigheid verbeteren, en we leveren pilotbewijs van verbeterde token-efficiëntie in voortgezette voorafgaande training.

English

Can a small amount of verified goal information steer the expensive self-supervised pretraining of foundation models? Standard pretraining optimizes a fixed proxy objective (e.g., next-token prediction), which can misallocate compute away from downstream capabilities of interest. We introduce V-Pretraining: a value-based, modality-agnostic method for controlled continued pretraining in which a lightweight task designer reshapes the pretraining task to maximize the value of each gradient step. For example, consider self-supervised learning (SSL) with sample augmentation. The V-Pretraining task designer selects pretraining tasks (e.g., augmentations) for which the pretraining loss gradient is aligned with a gradient computed over a downstream task (e.g., image segmentation). This helps steer pretraining towards relevant downstream capabilities. Notably, the pretrained model is never updated on downstream task labels; they are used only to shape the pretraining task. Under matched learner update budgets, V-Pretraining of 0.5B--7B language models improves reasoning (GSM8K test Pass@1) by up to 18% relative over standard next-token prediction using only 12% of GSM8K training examples as feedback. In vision SSL, we improve the state-of-the-art results on ADE20K by up to 1.07 mIoU and reduce NYUv2 RMSE while improving ImageNet linear accuracy, and we provide pilot evidence of improved token efficiency in continued pretraining.

Waardegebaseerde Voorafgaande Training met Feedback van Stroomafwaartse Taken

Value-Based Pre-Training with Downstream Feedback

Samenvatting

Support