다운스트림 피드백을 활용한 가치 기반 사전 학습
Value-Based Pre-Training with Downstream Feedback
January 29, 2026
저자: Shuqi Ke, Giulia Fanti
cs.AI
초록
소량의 검증된 목표 정보만으로도 대규모 기초 모델의 고비용 자기지도 사전훈련을 효과적으로 조정할 수 있을까? 기존의 표준 사전훈련은 고정된 프록시 목표(예: 다음 토큰 예측)를 최적화하므로, 관심 있는 하위 작업 능력과는 무관하게 컴퓨팅 자원을 비효율적으로 배분할 수 있습니다. 본 연구에서는 V-Pretraining을 소개합니다. 이는 가치 기반이며 모달리티에 구애받지 않는 제어적 지속 사전훈련 방법으로, 경량의 작업 설계자가 각 그래디언트 단계의 가치를 극대화하도록 사전훈련 과제를 재구성합니다. 예를 들어, 샘플 증강을 활용한 자기지도 학습(SSL)을 생각해 보겠습니다. V-Pretraining의 작업 설계자는 사전훈련 손실 그래디언트가 하위 작업(예: 이미지 분할)에서 계산된 그래디언트와 정렬되는 사전훈련 과제(예: 증강 방식)를 선택합니다. 이는 사전훈련이 관련 하위 작업 능력 향상 방향으로 조정되도록 돕습니다. 주목할 점은 사전훈련된 모델이 하위 작업의 레이블로 직접 업데이트되지 않으며, 해당 레이블은 오직 사전훈련 과제를 설계하는 데만 사용된다는 것입니다. 동일한 학습자 업데이트 예산 하에서, 0.5B~7B 규모의 언어 모델에 V-Pretraining을 적용하면 GSM8K 학습 예시의 단 12%만 피드백으로 사용하여 표준 다음 토큰 예측 대비 추론 능력(GSM8K 테스트 Pass@1)이 최대 18% 상대적으로 향상되었습니다. 비전 SSL에서는 ADE20K에서 최대 1.07 mIoU로 최첨단 결과를 개선하고 NYUv2 RMSE를 감소시키면서 ImageNet 선형 정확도도 향상시켰으며, 지속 사전훈련에서의 토큰 효율성 향상에 대한 예비 증거도 제시합니다.
English
Can a small amount of verified goal information steer the expensive self-supervised pretraining of foundation models? Standard pretraining optimizes a fixed proxy objective (e.g., next-token prediction), which can misallocate compute away from downstream capabilities of interest. We introduce V-Pretraining: a value-based, modality-agnostic method for controlled continued pretraining in which a lightweight task designer reshapes the pretraining task to maximize the value of each gradient step. For example, consider self-supervised learning (SSL) with sample augmentation. The V-Pretraining task designer selects pretraining tasks (e.g., augmentations) for which the pretraining loss gradient is aligned with a gradient computed over a downstream task (e.g., image segmentation). This helps steer pretraining towards relevant downstream capabilities. Notably, the pretrained model is never updated on downstream task labels; they are used only to shape the pretraining task. Under matched learner update budgets, V-Pretraining of 0.5B--7B language models improves reasoning (GSM8K test Pass@1) by up to 18% relative over standard next-token prediction using only 12% of GSM8K training examples as feedback. In vision SSL, we improve the state-of-the-art results on ADE20K by up to 1.07 mIoU and reduce NYUv2 RMSE while improving ImageNet linear accuracy, and we provide pilot evidence of improved token efficiency in continued pretraining.