ChatPaper.aiChatPaper

К открытому сравнению визуального качества

Towards Open-ended Visual Quality Comparison

February 26, 2024
Авторы: Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin
cs.AI

Аннотация

Сравнительные подходы (например, попарный выбор, ранжирование по списку) широко используются в субъективных исследованиях для оценки качества изображений (IQA), поскольку они изначально стандартизируют критерии оценки для разных наблюдателей и предоставляют более четкие ответы. В данной работе мы расширяем возможности современных крупных мультимодальных моделей (LMM), чтобы продвинуть сравнение визуального качества в открытые условия, которые: 1) могут отвечать на вопросы с открытым диапазоном о сравнении качества; 2) могут предоставлять подробные обоснования, выходящие за рамки прямых ответов. Для этого мы предлагаем модель Co-Instruct. Чтобы обучить этот первый в своем роде открытый инструмент для сравнения визуального качества, мы собираем набор данных Co-Instruct-562K из двух источников: (а) описания качества отдельных изображений, сгенерированные LMM, (б) ответы "учителя" GPT-4V на немаркированные данные. Кроме того, для более качественной оценки этого подхода мы предлагаем MICBench — первый бенчмарк для сравнения нескольких изображений в контексте LMM. Мы демонстрируем, что Co-Instruct не только достигает на 30% более высокой точности, чем современные открытые LMM, но и превосходит GPT-4V (своего "учителя") как на существующих связанных бенчмарках, так и на предложенном MICBench. Наша модель опубликована по адресу https://huggingface.co/q-future/co-instruct.
English
Comparative settings (e.g. pairwise choice, listwise ranking) have been adopted by a wide range of subjective studies for image quality assessment (IQA), as it inherently standardizes the evaluation criteria across different observers and offer more clear-cut responses. In this work, we extend the edge of emerging large multi-modality models (LMMs) to further advance visual quality comparison into open-ended settings, that 1) can respond to open-range questions on quality comparison; 2) can provide detailed reasonings beyond direct answers. To this end, we propose the Co-Instruct. To train this first-of-its-kind open-source open-ended visual quality comparer, we collect the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image quality description, (b) GPT-4V "teacher" responses on unlabeled data. Furthermore, to better evaluate this setting, we propose the MICBench, the first benchmark on multi-image comparison for LMMs. We demonstrate that Co-Instruct not only achieves 30% higher superior accuracy than state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher), on both existing related benchmarks and the proposed MICBench. Our model is published at https://huggingface.co/q-future/co-instruct.
PDF191December 15, 2024