Повышение способности к рассуждениям мультимодальных крупных языковых моделей с помощью оптимизации смешанных предпочтенийEnhancing the Reasoning Ability of Multimodal Large Language Models via
Mixed Preference Optimization
Существующие открытые мультимодальные большие языковые модели (MLLM) обычно проходят процесс обучения, включающий предварительное обучение и надзорную донастройку. Однако эти модели страдают от сдвигов распределения, которые ограничивают их мультимодальное рассуждение, особенно в производительности Chain-of-Thought (CoT). Для решения этой проблемы мы представляем процесс оптимизации предпочтений (PO) для улучшения мультимодальных рассуждений MLLM. Конкретно, (1) с точки зрения данных мы разрабатываем автоматизированный конвейер построения данных предпочтений для создания MMPR, качественного и масштабного мультимодального набора данных предпочтений для рассуждений, и (2) с точки зрения модели мы исследуем интеграцию PO с MLLM, разрабатывая простой, но эффективный метод, названный Смешанная оптимизация предпочтений (MPO), который повышает производительность мультимодального CoT. Наш подход демонстрирует улучшенную производительность на нескольких показателях, особенно в задачах мультимодального рассуждения. Заметно, что наша модель, InternVL2-8B-MPO, достигает точности 67,0 на MathVista, превосходя InternVL2-8B на 8,7 пункта и достигая производительности, сравнимой с 10 раз большей InternVL2-76B. Мы надеемся, что данное исследование может вдохновить на дальнейшие усовершенствования в области MLLM. Код, данные и модель будут общедоступны.