Улучшение модели языка для зрительного анализа цепочки логических рассуждений.
Improve Vision Language Model Chain-of-thought Reasoning
October 21, 2024
Авторы: Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang
cs.AI
Аннотация
Цепочка мыслей (CoT) в моделях языка зрения (VLM) имеет важное значение для улучшения интерпретируемости и надежности. Однако текущие методики обучения не обладают надежными данными для CoT рассуждений, полагаясь на наборы данных, где преобладают краткие аннотации с минимальными обоснованиями. В данной работе мы показываем, что обучение VLM на кратких ответах плохо обобщается на задачи рассуждений, требующие более детальных ответов. Для решения этой проблемы мы предлагаем двухэтапный подход. Во-первых, мы извлекаем обоснования из модели GPT-4o для обогащения обучающих данных и дообучения VLM, улучшая их производительность в CoT. Во-вторых, мы применяем обучение с подкреплением для дальнейшей калибровки качества рассуждений. Конкретно, мы создаем положительные (правильные) и отрицательные (неправильные) пары цепочек рассуждений, сравнивая их предсказания с аннотированными краткими ответами. Используя эти парные данные, мы применяем алгоритм оптимизации прямого предпочтения для улучшения способностей модели к рассуждениям. Наши эксперименты демонстрируют значительное улучшение в CoT рассуждениях на стандартных наборах данных и лучшее обобщение для прямого предсказания ответов. Эта работа подчеркивает важность включения детальных обоснований в обучение и использование обучения с подкреплением для укрепления способностей к рассуждениям у моделей языка зрения.
English
Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial
for improving interpretability and trustworthiness. However, current training
recipes lack robust CoT reasoning data, relying on datasets dominated by short
annotations with minimal rationales. In this work, we show that training VLM on
short answers does not generalize well to reasoning tasks that require more
detailed responses. To address this, we propose a two-fold approach. First, we
distill rationales from GPT-4o model to enrich the training data and fine-tune
VLMs, boosting their CoT performance. Second, we apply reinforcement learning
to further calibrate reasoning quality. Specifically, we construct positive
(correct) and negative (incorrect) pairs of model-generated reasoning chains,
by comparing their predictions with annotated short answers. Using this
pairwise data, we apply the Direct Preference Optimization algorithm to refine
the model's reasoning abilities. Our experiments demonstrate significant
improvements in CoT reasoning on benchmark datasets and better generalization
to direct answer prediction as well. This work emphasizes the importance of
incorporating detailed rationales in training and leveraging reinforcement
learning to strengthen the reasoning capabilities of VLMs.Summary
AI-Generated Summary