MIA-DPO: 대규모 비전-언어 모델을 위한 다중 이미지 증강 직접 선호도 최적화MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large
Vision-Language Models
시각적 선호도 정렬은 대형 시각-언어 모델(LVLMs)을 사용하여 시각적 입력 사이의 인간 선호를 예측하는 것을 포함합니다. 일반적으로, 선택된/거부된 쌍의 레이블이 지정된 데이터셋을 사용하고 직접 선호도 최적화(DPO)와 같은 최적화 알고리즘을 활용하여 달성됩니다. 기존의 시각적 정렬 방법은 주로 단일 이미지 시나리오를 위해 설계되었으며, 다양한 훈련 데이터의 부족과 선택된/거부된 쌍을 주석 달기 위한 높은 비용으로 인해 다중 이미지 작업의 복잡성을 효과적으로 처리하기 어렵습니다. 우리는 다중 이미지 입력을 효과적으로 처리하는 시각적 선호도 정렬 접근 방식인 Multi-Image Augmented Direct Preference Optimization (MIA-DPO)을 제안합니다. MIA-DPO는 그리드 콜라주나 사진 안 사진 형식으로 배치된 관련 없는 이미지로 단일 이미지 데이터를 확장하여 다양한 다중 이미지 훈련 데이터의 부족을 완화하고, 다중 이미지 데이터 주석에 관련된 비용을 크게 줄입니다. 우리의 관찰 결과, LVLMs의 주의 값이 다른 이미지 간에 상당히 다르다는 것을 보여줍니다. 우리는 주의 값 사용하여 모델이 잘못 집중한 거부 응답을 식별하고 걸러냅니다. 우리의 주의 주의 선택은 (i) 인간 주석, (ii) 추가 데이터, (iii) 외부 모델이나 API에 의존하지 않고 선택된/거부된 쌍을 구성하는 데 사용됩니다. MIA-DPO는 다양한 아키텍처와 호환되며, 다섯 가지 다중 이미지 벤치마크에서 기존 방법을 능가하여 LLaVA-v1.5에서 평균 성능 향상률이 3.0%, 최근 InternLM-XC2.5에서 4.3%를 달성합니다. 또한, MIA-DPO는 모델이 단일 이미지를 이해하는 능력에 미미한 영향을 미칩니다.