Pré-entraînement axé sur la valeur avec rétroaction en aval
Value-Based Pre-Training with Downstream Feedback
January 29, 2026
papers.authors: Shuqi Ke, Giulia Fanti
cs.AI
papers.abstract
Une faible quantité d'informations vérifiées sur l'objectif peut-elle orienter le prétraitement auto-supervisé coûteux des modèles de fondation ? Le prétraitement standard optimise un objectif proxy fixe (par exemple, la prédiction du token suivant), ce qui peut allouer de manière sous-optimale les ressources de calcul par rapport aux capacités en aval souhaitées. Nous introduisons V-Pretraining : une méthode agnostique à la modalité, basée sur la valeur, pour un prétraitement continu contrôlé, dans laquelle un concepteur de tâches léger remodelle la tâche de prétraitement pour maximiser la valeur de chaque étape de gradient. Par exemple, considérons l'apprentissage auto-supervisé (SSL) avec augmentation d'échantillons. Le concepteur de tâches de V-Pretraining sélectionne des tâches de prétraitement (par exemple, des augmentations) pour lesquelles le gradient de la perte de prétraitement est aligné avec un gradient calculé sur une tâche en aval (par exemple, la segmentation d'image). Cela aide à orienter le prétraitement vers les capacités en aval pertinentes. Notamment, le modèle prétraité n'est jamais mis à jour sur les étiquettes de la tâche en aval ; celles-ci sont utilisées uniquement pour façonner la tâche de prétraitement. Avec des budgets de mise à jour de l'apprenant équivalents, le V-Pretraining appliqué à des modèles de langage de 0,5 à 7 milliards de paramètres améliore le raisonnement (GSM8K test Pass@1) jusqu'à 18 % relativement par rapport à la prédiction standard du token suivant, en utilisant seulement 12 % des exemples d'entraînement de GSM8K comme rétroaction. En vision par SSL, nous améliorons les résultats de l'état de l'art sur ADE20K jusqu'à 1,07 mIoU et réduisons le RMSE de NYUv2 tout en améliorant la précision linéaire sur ImageNet, et nous fournissons des preuves préliminaires d'une meilleure efficacité des tokens lors d'un prétraitement continu.
English
Can a small amount of verified goal information steer the expensive self-supervised pretraining of foundation models? Standard pretraining optimizes a fixed proxy objective (e.g., next-token prediction), which can misallocate compute away from downstream capabilities of interest. We introduce V-Pretraining: a value-based, modality-agnostic method for controlled continued pretraining in which a lightweight task designer reshapes the pretraining task to maximize the value of each gradient step. For example, consider self-supervised learning (SSL) with sample augmentation. The V-Pretraining task designer selects pretraining tasks (e.g., augmentations) for which the pretraining loss gradient is aligned with a gradient computed over a downstream task (e.g., image segmentation). This helps steer pretraining towards relevant downstream capabilities. Notably, the pretrained model is never updated on downstream task labels; they are used only to shape the pretraining task. Under matched learner update budgets, V-Pretraining of 0.5B--7B language models improves reasoning (GSM8K test Pass@1) by up to 18% relative over standard next-token prediction using only 12% of GSM8K training examples as feedback. In vision SSL, we improve the state-of-the-art results on ADE20K by up to 1.07 mIoU and reduce NYUv2 RMSE while improving ImageNet linear accuracy, and we provide pilot evidence of improved token efficiency in continued pretraining.