Wertbasiertes Vor-Training mit nachgelagertem Feedback

papers.abstract

Kann eine geringe Menge verifizierter Zielinformationen das teure selbstüberwachte Vortraining von Foundation-Modellen lenken? Standard-Vortraining optimiert ein festes Stellvertreterziel (z.B. nächste-Token-Vorhersage), was Rechenressourcen von nachgelagerten Fähigkeiten von Interesse fehlleiten kann. Wir stellen V-Pretraining vor: eine wertbasierte, modalitätsunabhängige Methode für kontrolliertes Fortgesetztes Vortraining, bei der ein leichtgewichtiger Task-Designer die Vortrainingsaufgabe umgestaltet, um den Wert jedes Gradientenschritts zu maximieren. Betrachten Sie beispielsweise selbstüberwachtes Lernen (SSL) mit Stichproben-Augmentierung. Der V-Pretraining-Task-Designer wählt Vortrainingsaufgaben (z.B. Augmentierungen) aus, bei denen der Vortrainingsverlustgradient mit einem Gradienten über einer nachgelagerten Aufgabe (z.B. Bildsegmentierung) ausgerichtet ist. Dies hilft, das Vortraining in Richtung relevanter nachgelagerter Fähigkeiten zu steuern. Bemerkenswerterweise wird das vortrainierte Modell nie mit Labels der nachgelagerten Aufgabe aktualisiert; diese werden nur zur Gestaltung der Vortrainingsaufgabe verwendet. Unter identischen Lern-Update-Budgets verbessert V-Pretraining von 0,5–7B-Sprachmodellen das logische Denken (GSM8K Test Pass@1) um bis zu 18 % relativ zum Standard-Nächst-Token-Training, wobei nur 12 % der GSM8K-Trainingsbeispiele als Feedback verwendet werden. Im visuellen SSL verbessern wir die State-of-the-Art-Ergebnisse auf ADE20K um bis zu 1,07 mIoU, reduzieren NYUv2 RMSE bei gleichzeitiger Verbesserung der ImageNet-Lineargenauigkeit und liefern erste Belege für verbesserte Token-Effizienz beim fortgesetzten Vortraining.

English

Can a small amount of verified goal information steer the expensive self-supervised pretraining of foundation models? Standard pretraining optimizes a fixed proxy objective (e.g., next-token prediction), which can misallocate compute away from downstream capabilities of interest. We introduce V-Pretraining: a value-based, modality-agnostic method for controlled continued pretraining in which a lightweight task designer reshapes the pretraining task to maximize the value of each gradient step. For example, consider self-supervised learning (SSL) with sample augmentation. The V-Pretraining task designer selects pretraining tasks (e.g., augmentations) for which the pretraining loss gradient is aligned with a gradient computed over a downstream task (e.g., image segmentation). This helps steer pretraining towards relevant downstream capabilities. Notably, the pretrained model is never updated on downstream task labels; they are used only to shape the pretraining task. Under matched learner update budgets, V-Pretraining of 0.5B--7B language models improves reasoning (GSM8K test Pass@1) by up to 18% relative over standard next-token prediction using only 12% of GSM8K training examples as feedback. In vision SSL, we improve the state-of-the-art results on ADE20K by up to 1.07 mIoU and reduce NYUv2 RMSE while improving ImageNet linear accuracy, and we provide pilot evidence of improved token efficiency in continued pretraining.

Wertbasiertes Vor-Training mit nachgelagertem Feedback

Value-Based Pre-Training with Downstream Feedback

papers.abstract

Support