개방형 시각적 품질 비교를 향하여
Towards Open-ended Visual Quality Comparison
February 26, 2024
저자: Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin
cs.AI
초록
비교 설정(예: 쌍별 선택, 목록별 순위)은 이미지 품질 평가(IQA)를 위한 다양한 주관적 연구에서 널리 채택되어 왔는데, 이는 본질적으로 서로 다른 관찰자 간의 평가 기준을 표준화하고 더 명확한 응답을 제공하기 때문입니다. 본 연구에서는 최신 대형 다중 모달리티 모델(LMMs)의 한계를 확장하여 시각적 품질 비교를 개방형 설정으로 더욱 발전시키고자 합니다. 이는 1) 품질 비교에 대한 개방형 질문에 응답할 수 있고, 2) 직접적인 답변을 넘어 상세한 추론을 제공할 수 있는 능력을 포함합니다. 이를 위해 우리는 Co-Instruct를 제안합니다. 이 최초의 오픈소스 개방형 시각적 품질 비교기를 학습시키기 위해, 우리는 두 가지 소스로부터 Co-Instruct-562K 데이터셋을 수집했습니다: (a) LMM이 병합한 단일 이미지 품질 설명, (b) 라벨이 없는 데이터에 대한 GPT-4V "교사" 응답. 또한, 이 설정을 더 잘 평가하기 위해 LMMs를 위한 최초의 다중 이미지 비교 벤치마크인 MICBench를 제안합니다. 우리는 Co-Instruct가 최신 오픈소스 LMMs보다 30% 더 높은 우수한 정확도를 달성할 뿐만 아니라, 기존 관련 벤치마크와 제안된 MICBench에서 GPT-4V(그의 교사)를 능가함을 보여줍니다. 우리의 모델은 https://huggingface.co/q-future/co-instruct에서 공개되었습니다.
English
Comparative settings (e.g. pairwise choice, listwise ranking) have been
adopted by a wide range of subjective studies for image quality assessment
(IQA), as it inherently standardizes the evaluation criteria across different
observers and offer more clear-cut responses. In this work, we extend the edge
of emerging large multi-modality models (LMMs) to further advance visual
quality comparison into open-ended settings, that 1) can respond to open-range
questions on quality comparison; 2) can provide detailed reasonings beyond
direct answers. To this end, we propose the Co-Instruct. To train this
first-of-its-kind open-source open-ended visual quality comparer, we collect
the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image
quality description, (b) GPT-4V "teacher" responses on unlabeled data.
Furthermore, to better evaluate this setting, we propose the MICBench, the
first benchmark on multi-image comparison for LMMs. We demonstrate that
Co-Instruct not only achieves 30% higher superior accuracy than
state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher),
on both existing related benchmarks and the proposed MICBench. Our model is
published at https://huggingface.co/q-future/co-instruct.