MIA-DPO: Многокартинная увеличенная оптимизация прямых предпочтений для крупных моделей видео-языка
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
October 23, 2024
Авторы: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Аннотация
Выравнивание визуальных предпочтений включает в себя обучение больших моделей видео-языка (LVLM) на предсказание человеческих предпочтений между визуальными входами. Обычно это достигается с использованием размеченных наборов данных выбранных/отклоненных пар и применением алгоритмов оптимизации, таких как прямая оптимизация предпочтений (DPO). Существующие методы визуального выравнивания, в основном разработанные для сценариев с одним изображением, испытывают затруднения в эффективной обработке сложности многокартинных задач из-за недостатка разнообразных обучающих данных и высокой стоимости аннотирования выбранных/отклоненных пар. Мы представляем Многокартинную Дополненную Прямую Оптимизацию Предпочтений (MIA-DPO), подход к выравниванию визуальных предпочтений, который эффективно обрабатывает многокартинные входы. MIA-DPO смягчает недостаток разнообразных многокартинных обучающих данных путем расширения данных с одиночными изображениями неродственными изображениями, расположенными в сетках или форматах изображения в изображении, что значительно снижает затраты, связанные с аннотированием многокартинных данных. Наше наблюдение показывает, что значения внимания LVLM значительно различаются в различных изображениях. Мы используем значения внимания для идентификации и фильтрации отклоненных ответов, на которые модель могла ошибочно сосредоточиться. Наш выбор, ориентированный на внимание, для построения выбранных/отклоненных пар не зависит от (i) человеческой аннотации, (ii) дополнительных данных и (iii) внешних моделей или API. MIA-DPO совместим с различными архитектурами и превосходит существующие методы на пяти многокартинных бенчмарках, достигая среднего повышения производительности на 3,0% на LLaVA-v1.5 и на 4,3% на недавнем InternLM-XC2.5. Более того, MIA-DPO имеет минимальное воздействие на способность модели понимать одиночные изображения.
English
Visual preference alignment involves training Large Vision-Language Models
(LVLMs) to predict human preferences between visual inputs. This is typically
achieved by using labeled datasets of chosen/rejected pairs and employing
optimization algorithms like direct preference optimization (DPO). Existing
visual alignment methods, primarily designed for single-image scenarios,
struggle to effectively handle the complexity of multi-image tasks due to the
scarcity of diverse training data and the high cost of annotating
chosen/rejected pairs. We present Multi-Image Augmented Direct Preference
Optimization (MIA-DPO), a visual preference alignment approach that effectively
handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse
multi-image training data by extending single-image data with unrelated images
arranged in grid collages or pic-in-pic formats, significantly reducing the
costs associated with multi-image data annotations. Our observation reveals
that attention values of LVLMs vary considerably across different images. We
use attention values to identify and filter out rejected responses the model
may have mistakenly focused on. Our attention-aware selection for constructing
the chosen/rejected pairs without relying on (i) human annotation, (ii) extra
data, and (iii) external models or APIs. MIA-DPO is compatible with various
architectures and outperforms existing methods on five multi-image benchmarks,
achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the
recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's
ability to understand single images.Summary
AI-Generated Summary