ChatPaper.aiChatPaper

Улучшение модели языка для зрительного анализа цепочки логических рассуждений.

Improve Vision Language Model Chain-of-thought Reasoning

October 21, 2024
Авторы: Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang
cs.AI

Аннотация

Цепочка мыслей (CoT) в моделях языка зрения (VLM) имеет важное значение для улучшения интерпретируемости и надежности. Однако текущие методики обучения не обладают надежными данными для CoT рассуждений, полагаясь на наборы данных, где преобладают краткие аннотации с минимальными обоснованиями. В данной работе мы показываем, что обучение VLM на кратких ответах плохо обобщается на задачи рассуждений, требующие более детальных ответов. Для решения этой проблемы мы предлагаем двухэтапный подход. Во-первых, мы извлекаем обоснования из модели GPT-4o для обогащения обучающих данных и дообучения VLM, улучшая их производительность в CoT. Во-вторых, мы применяем обучение с подкреплением для дальнейшей калибровки качества рассуждений. Конкретно, мы создаем положительные (правильные) и отрицательные (неправильные) пары цепочек рассуждений, сравнивая их предсказания с аннотированными краткими ответами. Используя эти парные данные, мы применяем алгоритм оптимизации прямого предпочтения для улучшения способностей модели к рассуждениям. Наши эксперименты демонстрируют значительное улучшение в CoT рассуждениях на стандартных наборах данных и лучшее обобщение для прямого предсказания ответов. Эта работа подчеркивает важность включения детальных обоснований в обучение и использование обучения с подкреплением для укрепления способностей к рассуждениям у моделей языка зрения.
English
Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial for improving interpretability and trustworthiness. However, current training recipes lack robust CoT reasoning data, relying on datasets dominated by short annotations with minimal rationales. In this work, we show that training VLM on short answers does not generalize well to reasoning tasks that require more detailed responses. To address this, we propose a two-fold approach. First, we distill rationales from GPT-4o model to enrich the training data and fine-tune VLMs, boosting their CoT performance. Second, we apply reinforcement learning to further calibrate reasoning quality. Specifically, we construct positive (correct) and negative (incorrect) pairs of model-generated reasoning chains, by comparing their predictions with annotated short answers. Using this pairwise data, we apply the Direct Preference Optimization algorithm to refine the model's reasoning abilities. Our experiments demonstrate significant improvements in CoT reasoning on benchmark datasets and better generalization to direct answer prediction as well. This work emphasizes the importance of incorporating detailed rationales in training and leveraging reinforcement learning to strengthen the reasoning capabilities of VLMs.

Summary

AI-Generated Summary

PDF272November 16, 2024