ChatPaper.aiChatPaper

Предварительное обучение на основе ценностей с обратной связью от последующих задач

Value-Based Pre-Training with Downstream Feedback

January 29, 2026
Авторы: Shuqi Ke, Giulia Fanti
cs.AI

Аннотация

Может ли небольшой объем проверенной целевой информации направлять дорогостоящее самообучение базовых моделей на этапе предварительного обучения? Стандартное предварительное обучение оптимизирует фиксированный вспомогательный целевой показатель (например, предсказание следующего токена), что может приводить к нерациональному распределению вычислительных ресурсов в ущерб формированию целевых downstream-способностей. Мы представляем V-Pretraining: ценностно-ориентированный, модально-независимый метод контролируемого продолженного предварительного обучения, в котором облегченный планировщик задач перестраивает задачу предварительного обучения для максимизации ценности каждого шага градиентного спуска. Рассмотрим, например, самообучение с аугментацией выборок. Планировщик задач V-Pretraining выбирает задачи предварительного обучения (например, виды аугментации), для которых градиент потерь предварительного обучения согласован с градиентом, вычисленным по downstream-задаче (например, семантической сегментации изображений). Это помогает направлять предварительное обучение в сторону релевантных downstream-способностей. Примечательно, что предобученная модель никогда не обновляется на метках downstream-задач; они используются исключительно для формирования задачи предварительного обучения. При сопоставимых вычислительных бюджетах V-Pretraining языковых моделей объемом 0,5–7 млрд параметров улучшает показатели логического мышления (GSM8K test Pass@1) до 18% относительно стандартного предсказания следующего токена, используя лишь 12% обучающих примеров GSM8K в качестве обратной связи. В компьютерном зрении мы улучшаем state-of-the-art результаты на ADE20K до 1,07 mIoU, снижаем RMSE на NYUv2 при одновременном улучшении линейной точности на ImageNet, а также представляем предварительные свидетельства повышения токенной эффективности при продолженном предварительном обучении.
English
Can a small amount of verified goal information steer the expensive self-supervised pretraining of foundation models? Standard pretraining optimizes a fixed proxy objective (e.g., next-token prediction), which can misallocate compute away from downstream capabilities of interest. We introduce V-Pretraining: a value-based, modality-agnostic method for controlled continued pretraining in which a lightweight task designer reshapes the pretraining task to maximize the value of each gradient step. For example, consider self-supervised learning (SSL) with sample augmentation. The V-Pretraining task designer selects pretraining tasks (e.g., augmentations) for which the pretraining loss gradient is aligned with a gradient computed over a downstream task (e.g., image segmentation). This helps steer pretraining towards relevant downstream capabilities. Notably, the pretrained model is never updated on downstream task labels; they are used only to shape the pretraining task. Under matched learner update budgets, V-Pretraining of 0.5B--7B language models improves reasoning (GSM8K test Pass@1) by up to 18% relative over standard next-token prediction using only 12% of GSM8K training examples as feedback. In vision SSL, we improve the state-of-the-art results on ADE20K by up to 1.07 mIoU and reduce NYUv2 RMSE while improving ImageNet linear accuracy, and we provide pilot evidence of improved token efficiency in continued pretraining.
PDF12February 3, 2026