Mejorar el Modelo de Lenguaje de Visión para el Razonamiento en Cadena de Pensamiento.
Improve Vision Language Model Chain-of-thought Reasoning
October 21, 2024
Autores: Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang
cs.AI
Resumen
El razonamiento en cadena de pensamiento (CoT) en modelos de lenguaje visual (VLMs) es crucial para mejorar la interpretabilidad y confiabilidad. Sin embargo, las recetas de entrenamiento actuales carecen de datos robustos de razonamiento CoT, dependiendo de conjuntos de datos dominados por anotaciones cortas con fundamentos mínimos. En este trabajo, demostramos que entrenar VLM en respuestas cortas no generaliza bien a tareas de razonamiento que requieren respuestas más detalladas. Para abordar esto, proponemos un enfoque dual. En primer lugar, destilamos fundamentos del modelo GPT-4o para enriquecer los datos de entrenamiento y ajustar finamente los VLMs, mejorando su rendimiento en CoT. En segundo lugar, aplicamos aprendizaje por refuerzo para calibrar aún más la calidad del razonamiento. Específicamente, construimos pares positivos (correctos) y negativos (incorrectos) de cadenas de razonamiento generadas por el modelo, comparando sus predicciones con respuestas cortas anotadas. Utilizando estos datos emparejados, aplicamos el algoritmo de Optimización de Preferencia Directa para refinar las habilidades de razonamiento del modelo. Nuestros experimentos demuestran mejoras significativas en el razonamiento CoT en conjuntos de datos de referencia y una mejor generalización a la predicción de respuestas directas también. Este trabajo enfatiza la importancia de incorporar fundamentos detallados en el entrenamiento y aprovechar el aprendizaje por refuerzo para fortalecer las capacidades de razonamiento de los VLMs.
English
Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial
for improving interpretability and trustworthiness. However, current training
recipes lack robust CoT reasoning data, relying on datasets dominated by short
annotations with minimal rationales. In this work, we show that training VLM on
short answers does not generalize well to reasoning tasks that require more
detailed responses. To address this, we propose a two-fold approach. First, we
distill rationales from GPT-4o model to enrich the training data and fine-tune
VLMs, boosting their CoT performance. Second, we apply reinforcement learning
to further calibrate reasoning quality. Specifically, we construct positive
(correct) and negative (incorrect) pairs of model-generated reasoning chains,
by comparing their predictions with annotated short answers. Using this
pairwise data, we apply the Direct Preference Optimization algorithm to refine
the model's reasoning abilities. Our experiments demonstrate significant
improvements in CoT reasoning on benchmark datasets and better generalization
to direct answer prediction as well. This work emphasizes the importance of
incorporating detailed rationales in training and leveraging reinforcement
learning to strengthen the reasoning capabilities of VLMs.Summary
AI-Generated Summary