Pré-Treinamento Baseado em Valor com Feedback da Tarefa-Alvo

Resumo

Uma pequena quantidade de informação verificada sobre o objetivo pode direcionar o custoso pré-treinamento auto supervisionado de modelos de base? O pré-treinamento padrão otimiza um objetivo fixo indireto (por exemplo, previsão do próximo token), o que pode alocar incorretamente recursos computacionais para longe das capacidades downstream de interesse. Apresentamos o V-Pretraining: um método baseado em valor e agnóstico à modalidade para pré-treinamento contínuo controlado, no qual um projetista de tarefas leve remodela a tarefa de pré-treinamento para maximizar o valor de cada passo do gradiente. Por exemplo, considere a aprendizagem auto supervisionada (SSL) com aumento de amostras. O projetista de tarefas do V-Pretraining seleciona tarefas de pré-treinamento (por exemplo, aumentos) para as quais o gradiente da perda do pré-treinamento está alinhado com um gradiente calculado sobre uma tarefa downstream (por exemplo, segmentação de imagem). Isso ajuda a direcionar o pré-treinamento para capacidades downstream relevantes. Notavelmente, o modelo pré-treinado nunca é atualizado com rótulos da tarefa downstream; estes são usados apenas para moldar a tarefa de pré-treinamento. Sob orçamentos de atualização equivalentes para o aprendiz, o V-Pretraining de modelos de linguagem de 0,5B a 7B melhora o raciocínio (GSM8K teste Pass@1) em até 18% em relação à previsão padrão do próximo token, usando apenas 12% dos exemplos de treinamento do GSM8K como feedback. Na SSL de visão, melhoramos os resultados de última geração no ADE20K em até 1,07 mIoU e reduzimos o RMSE do NYUv2 enquanto melhoramos a precisão linear do ImageNet, e fornecemos evidências preliminares de melhor eficiência de token no pré-treinamento contínuo.

English

Can a small amount of verified goal information steer the expensive self-supervised pretraining of foundation models? Standard pretraining optimizes a fixed proxy objective (e.g., next-token prediction), which can misallocate compute away from downstream capabilities of interest. We introduce V-Pretraining: a value-based, modality-agnostic method for controlled continued pretraining in which a lightweight task designer reshapes the pretraining task to maximize the value of each gradient step. For example, consider self-supervised learning (SSL) with sample augmentation. The V-Pretraining task designer selects pretraining tasks (e.g., augmentations) for which the pretraining loss gradient is aligned with a gradient computed over a downstream task (e.g., image segmentation). This helps steer pretraining towards relevant downstream capabilities. Notably, the pretrained model is never updated on downstream task labels; they are used only to shape the pretraining task. Under matched learner update budgets, V-Pretraining of 0.5B--7B language models improves reasoning (GSM8K test Pass@1) by up to 18% relative over standard next-token prediction using only 12% of GSM8K training examples as feedback. In vision SSL, we improve the state-of-the-art results on ADE20K by up to 1.07 mIoU and reduce NYUv2 RMSE while improving ImageNet linear accuracy, and we provide pilot evidence of improved token efficiency in continued pretraining.

Pré-Treinamento Baseado em Valor com Feedback da Tarefa-Alvo

Value-Based Pre-Training with Downstream Feedback

Resumo

Support