Preentrenamiento Basado en Valores con Retroalimentación de Tareas Posteriores

Resumen

¿Puede una pequeña cantidad de información verificada sobre objetivos dirigir el costoso preentrenamiento autosupervisado de modelos fundacionales? El preentrenamiento estándar optimiza un objetivo proxy fijo (por ejemplo, la predicción del siguiente token), lo que puede malasignar recursos de cómputo lejos de las capacidades descendentes de interés. Introducimos V-Pretraining: un método basado en valores y agnóstico a la modalidad para un preentrenamiento continuo controlado, en el cual un diseñador de tareas ligero remodela la tarea de preentrenamiento para maximizar el valor de cada paso de gradiente. Por ejemplo, considere el aprendizaje autosupervisado (SSL) con aumento de muestras. El diseñador de tareas de V-Pretraining selecciona tareas de preentrenamiento (por ejemplo, aumentos) para las cuales el gradiente de la pérdida de preentrenamiento está alineado con un gradiente calculado sobre una tarea descendente (por ejemplo, segmentación de imágenes). Esto ayuda a dirigir el preentrenamiento hacia capacidades descendentes relevantes. Cabe destacar que el modelo preentrenado nunca se actualiza con las etiquetas de la tarea descendente; estas se utilizan únicamente para moldear la tarea de preentrenamiento. Con presupuestos de actualización del aprendiz equivalentes, V-Pretraining aplicado a modelos de lenguaje de 0.5B a 7B mejora el razonamiento (GSM8K test Pass@1) hasta en un 18% relativo respecto a la predicción estándar del siguiente token, utilizando solo el 12% de los ejemplos de entrenamiento de GSM8K como retroalimentación. En SSL de visión, mejoramos los resultados state-of-the-art en ADE20K hasta en 1.07 mIoU y reducimos el RMSE de NYUv2 mientras mejoramos la precisión lineal en ImageNet, y aportamos evidencia preliminar de una mejor eficiencia de tokens en el preentrenamiento continuo.

English

Can a small amount of verified goal information steer the expensive self-supervised pretraining of foundation models? Standard pretraining optimizes a fixed proxy objective (e.g., next-token prediction), which can misallocate compute away from downstream capabilities of interest. We introduce V-Pretraining: a value-based, modality-agnostic method for controlled continued pretraining in which a lightweight task designer reshapes the pretraining task to maximize the value of each gradient step. For example, consider self-supervised learning (SSL) with sample augmentation. The V-Pretraining task designer selects pretraining tasks (e.g., augmentations) for which the pretraining loss gradient is aligned with a gradient computed over a downstream task (e.g., image segmentation). This helps steer pretraining towards relevant downstream capabilities. Notably, the pretrained model is never updated on downstream task labels; they are used only to shape the pretraining task. Under matched learner update budgets, V-Pretraining of 0.5B--7B language models improves reasoning (GSM8K test Pass@1) by up to 18% relative over standard next-token prediction using only 12% of GSM8K training examples as feedback. In vision SSL, we improve the state-of-the-art results on ADE20K by up to 1.07 mIoU and reduce NYUv2 RMSE while improving ImageNet linear accuracy, and we provide pilot evidence of improved token efficiency in continued pretraining.

Preentrenamiento Basado en Valores con Retroalimentación de Tareas Posteriores

Value-Based Pre-Training with Downstream Feedback

Resumen

Support