MIA-DPO: Многокартинная увеличенная оптимизация прямых предпочтений для крупных моделей видео-языкаMIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large
Vision-Language Models
Выравнивание визуальных предпочтений включает в себя обучение больших моделей видео-языка (LVLM) на предсказание человеческих предпочтений между визуальными входами. Обычно это достигается с использованием размеченных наборов данных выбранных/отклоненных пар и применением алгоритмов оптимизации, таких как прямая оптимизация предпочтений (DPO). Существующие методы визуального выравнивания, в основном разработанные для сценариев с одним изображением, испытывают затруднения в эффективной обработке сложности многокартинных задач из-за недостатка разнообразных обучающих данных и высокой стоимости аннотирования выбранных/отклоненных пар. Мы представляем Многокартинную Дополненную Прямую Оптимизацию Предпочтений (MIA-DPO), подход к выравниванию визуальных предпочтений, который эффективно обрабатывает многокартинные входы. MIA-DPO смягчает недостаток разнообразных многокартинных обучающих данных путем расширения данных с одиночными изображениями неродственными изображениями, расположенными в сетках или форматах изображения в изображении, что значительно снижает затраты, связанные с аннотированием многокартинных данных. Наше наблюдение показывает, что значения внимания LVLM значительно различаются в различных изображениях. Мы используем значения внимания для идентификации и фильтрации отклоненных ответов, на которые модель могла ошибочно сосредоточиться. Наш выбор, ориентированный на внимание, для построения выбранных/отклоненных пар не зависит от (i) человеческой аннотации, (ii) дополнительных данных и (iii) внешних моделей или API. MIA-DPO совместим с различными архитектурами и превосходит существующие методы на пяти многокартинных бенчмарках, достигая среднего повышения производительности на 3,0% на LLaVA-v1.5 и на 4,3% на недавнем InternLM-XC2.5. Более того, MIA-DPO имеет минимальное воздействие на способность модели понимать одиночные изображения.