Melhorar o Modelo de Linguagem de Visão Raciocínio Encadeado de Pensamento
Improve Vision Language Model Chain-of-thought Reasoning
October 21, 2024
Autores: Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang
cs.AI
Resumo
O raciocínio em cadeia (CoT) em modelos de linguagem visual (VLMs) é crucial para melhorar a interpretabilidade e confiabilidade. No entanto, as receitas de treinamento atuais carecem de dados robustos de raciocínio CoT, dependendo de conjuntos de dados dominados por anotações curtas com justificativas mínimas. Neste trabalho, mostramos que treinar VLM em respostas curtas não generaliza bem para tarefas de raciocínio que exigem respostas mais detalhadas. Para lidar com isso, propomos uma abordagem em duas etapas. Primeiro, destilamos justificativas do modelo GPT-4o para enriquecer os dados de treinamento e ajustar finamente os VLMs, aumentando seu desempenho CoT. Em segundo lugar, aplicamos aprendizado por reforço para calibrar ainda mais a qualidade do raciocínio. Especificamente, construímos pares positivos (corretos) e negativos (incorretos) de cadeias de raciocínio geradas pelo modelo, comparando suas previsões com respostas curtas anotadas. Usando esses dados em pares, aplicamos o algoritmo de Otimização de Preferência Direta para refinar as habilidades de raciocínio do modelo. Nossos experimentos demonstram melhorias significativas no raciocínio CoT em conjuntos de dados de referência e melhor generalização para a previsão de respostas diretas também. Este trabalho enfatiza a importância de incorporar justificativas detalhadas no treinamento e de alavancar o aprendizado por reforço para fortalecer as capacidades de raciocínio dos VLMs.
English
Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial
for improving interpretability and trustworthiness. However, current training
recipes lack robust CoT reasoning data, relying on datasets dominated by short
annotations with minimal rationales. In this work, we show that training VLM on
short answers does not generalize well to reasoning tasks that require more
detailed responses. To address this, we propose a two-fold approach. First, we
distill rationales from GPT-4o model to enrich the training data and fine-tune
VLMs, boosting their CoT performance. Second, we apply reinforcement learning
to further calibrate reasoning quality. Specifically, we construct positive
(correct) and negative (incorrect) pairs of model-generated reasoning chains,
by comparing their predictions with annotated short answers. Using this
pairwise data, we apply the Direct Preference Optimization algorithm to refine
the model's reasoning abilities. Our experiments demonstrate significant
improvements in CoT reasoning on benchmark datasets and better generalization
to direct answer prediction as well. This work emphasizes the importance of
incorporating detailed rationales in training and leveraging reinforcement
learning to strengthen the reasoning capabilities of VLMs.Summary
AI-Generated Summary