Pré-Treinamento Baseado em Valor com Feedback da Tarefa-Alvo
Value-Based Pre-Training with Downstream Feedback
January 29, 2026
Autores: Shuqi Ke, Giulia Fanti
cs.AI
Resumo
Uma pequena quantidade de informação verificada sobre o objetivo pode direcionar o custoso pré-treinamento auto supervisionado de modelos de base? O pré-treinamento padrão otimiza um objetivo fixo indireto (por exemplo, previsão do próximo token), o que pode alocar incorretamente recursos computacionais para longe das capacidades downstream de interesse. Apresentamos o V-Pretraining: um método baseado em valor e agnóstico à modalidade para pré-treinamento contínuo controlado, no qual um projetista de tarefas leve remodela a tarefa de pré-treinamento para maximizar o valor de cada passo do gradiente. Por exemplo, considere a aprendizagem auto supervisionada (SSL) com aumento de amostras. O projetista de tarefas do V-Pretraining seleciona tarefas de pré-treinamento (por exemplo, aumentos) para as quais o gradiente da perda do pré-treinamento está alinhado com um gradiente calculado sobre uma tarefa downstream (por exemplo, segmentação de imagem). Isso ajuda a direcionar o pré-treinamento para capacidades downstream relevantes. Notavelmente, o modelo pré-treinado nunca é atualizado com rótulos da tarefa downstream; estes são usados apenas para moldar a tarefa de pré-treinamento. Sob orçamentos de atualização equivalentes para o aprendiz, o V-Pretraining de modelos de linguagem de 0,5B a 7B melhora o raciocínio (GSM8K teste Pass@1) em até 18% em relação à previsão padrão do próximo token, usando apenas 12% dos exemplos de treinamento do GSM8K como feedback. Na SSL de visão, melhoramos os resultados de última geração no ADE20K em até 1,07 mIoU e reduzimos o RMSE do NYUv2 enquanto melhoramos a precisão linear do ImageNet, e fornecemos evidências preliminares de melhor eficiência de token no pré-treinamento contínuo.
English
Can a small amount of verified goal information steer the expensive self-supervised pretraining of foundation models? Standard pretraining optimizes a fixed proxy objective (e.g., next-token prediction), which can misallocate compute away from downstream capabilities of interest. We introduce V-Pretraining: a value-based, modality-agnostic method for controlled continued pretraining in which a lightweight task designer reshapes the pretraining task to maximize the value of each gradient step. For example, consider self-supervised learning (SSL) with sample augmentation. The V-Pretraining task designer selects pretraining tasks (e.g., augmentations) for which the pretraining loss gradient is aligned with a gradient computed over a downstream task (e.g., image segmentation). This helps steer pretraining towards relevant downstream capabilities. Notably, the pretrained model is never updated on downstream task labels; they are used only to shape the pretraining task. Under matched learner update budgets, V-Pretraining of 0.5B--7B language models improves reasoning (GSM8K test Pass@1) by up to 18% relative over standard next-token prediction using only 12% of GSM8K training examples as feedback. In vision SSL, we improve the state-of-the-art results on ADE20K by up to 1.07 mIoU and reduce NYUv2 RMSE while improving ImageNet linear accuracy, and we provide pilot evidence of improved token efficiency in continued pretraining.