Mejorar el Modelo de Lenguaje de Visión para el Razonamiento en Cadena de Pensamiento.

Resumen

El razonamiento en cadena de pensamiento (CoT) en modelos de lenguaje visual (VLMs) es crucial para mejorar la interpretabilidad y confiabilidad. Sin embargo, las recetas de entrenamiento actuales carecen de datos robustos de razonamiento CoT, dependiendo de conjuntos de datos dominados por anotaciones cortas con fundamentos mínimos. En este trabajo, demostramos que entrenar VLM en respuestas cortas no generaliza bien a tareas de razonamiento que requieren respuestas más detalladas. Para abordar esto, proponemos un enfoque dual. En primer lugar, destilamos fundamentos del modelo GPT-4o para enriquecer los datos de entrenamiento y ajustar finamente los VLMs, mejorando su rendimiento en CoT. En segundo lugar, aplicamos aprendizaje por refuerzo para calibrar aún más la calidad del razonamiento. Específicamente, construimos pares positivos (correctos) y negativos (incorrectos) de cadenas de razonamiento generadas por el modelo, comparando sus predicciones con respuestas cortas anotadas. Utilizando estos datos emparejados, aplicamos el algoritmo de Optimización de Preferencia Directa para refinar las habilidades de razonamiento del modelo. Nuestros experimentos demuestran mejoras significativas en el razonamiento CoT en conjuntos de datos de referencia y una mejor generalización a la predicción de respuestas directas también. Este trabajo enfatiza la importancia de incorporar fundamentos detallados en el entrenamiento y aprovechar el aprendizaje por refuerzo para fortalecer las capacidades de razonamiento de los VLMs.

English

Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial for improving interpretability and trustworthiness. However, current training recipes lack robust CoT reasoning data, relying on datasets dominated by short annotations with minimal rationales. In this work, we show that training VLM on short answers does not generalize well to reasoning tasks that require more detailed responses. To address this, we propose a two-fold approach. First, we distill rationales from GPT-4o model to enrich the training data and fine-tune VLMs, boosting their CoT performance. Second, we apply reinforcement learning to further calibrate reasoning quality. Specifically, we construct positive (correct) and negative (incorrect) pairs of model-generated reasoning chains, by comparing their predictions with annotated short answers. Using this pairwise data, we apply the Direct Preference Optimization algorithm to refine the model's reasoning abilities. Our experiments demonstrate significant improvements in CoT reasoning on benchmark datasets and better generalization to direct answer prediction as well. This work emphasizes the importance of incorporating detailed rationales in training and leveraging reinforcement learning to strengthen the reasoning capabilities of VLMs.

Mejorar el Modelo de Lenguaje de Visión para el Razonamiento en Cadena de Pensamiento.

Improve Vision Language Model Chain-of-thought Reasoning

Resumen

Support