Melhorar o Modelo de Linguagem de Visão Raciocínio Encadeado de Pensamento

Resumo

O raciocínio em cadeia (CoT) em modelos de linguagem visual (VLMs) é crucial para melhorar a interpretabilidade e confiabilidade. No entanto, as receitas de treinamento atuais carecem de dados robustos de raciocínio CoT, dependendo de conjuntos de dados dominados por anotações curtas com justificativas mínimas. Neste trabalho, mostramos que treinar VLM em respostas curtas não generaliza bem para tarefas de raciocínio que exigem respostas mais detalhadas. Para lidar com isso, propomos uma abordagem em duas etapas. Primeiro, destilamos justificativas do modelo GPT-4o para enriquecer os dados de treinamento e ajustar finamente os VLMs, aumentando seu desempenho CoT. Em segundo lugar, aplicamos aprendizado por reforço para calibrar ainda mais a qualidade do raciocínio. Especificamente, construímos pares positivos (corretos) e negativos (incorretos) de cadeias de raciocínio geradas pelo modelo, comparando suas previsões com respostas curtas anotadas. Usando esses dados em pares, aplicamos o algoritmo de Otimização de Preferência Direta para refinar as habilidades de raciocínio do modelo. Nossos experimentos demonstram melhorias significativas no raciocínio CoT em conjuntos de dados de referência e melhor generalização para a previsão de respostas diretas também. Este trabalho enfatiza a importância de incorporar justificativas detalhadas no treinamento e de alavancar o aprendizado por reforço para fortalecer as capacidades de raciocínio dos VLMs.

English

Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial for improving interpretability and trustworthiness. However, current training recipes lack robust CoT reasoning data, relying on datasets dominated by short annotations with minimal rationales. In this work, we show that training VLM on short answers does not generalize well to reasoning tasks that require more detailed responses. To address this, we propose a two-fold approach. First, we distill rationales from GPT-4o model to enrich the training data and fine-tune VLMs, boosting their CoT performance. Second, we apply reinforcement learning to further calibrate reasoning quality. Specifically, we construct positive (correct) and negative (incorrect) pairs of model-generated reasoning chains, by comparing their predictions with annotated short answers. Using this pairwise data, we apply the Direct Preference Optimization algorithm to refine the model's reasoning abilities. Our experiments demonstrate significant improvements in CoT reasoning on benchmark datasets and better generalization to direct answer prediction as well. This work emphasizes the importance of incorporating detailed rationales in training and leveraging reinforcement learning to strengthen the reasoning capabilities of VLMs.

Melhorar o Modelo de Linguagem de Visão Raciocínio Encadeado de Pensamento

Improve Vision Language Model Chain-of-thought Reasoning

Resumo

Support