ChatPaper.aiChatPaper

Hacia la Comparación Abierta de Calidad Visual

Towards Open-ended Visual Quality Comparison

February 26, 2024
Autores: Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin
cs.AI

Resumen

Los entornos comparativos (por ejemplo, elección por pares, clasificación por listas) han sido adoptados por una amplia gama de estudios subjetivos para la evaluación de la calidad de imágenes (IQA), ya que estandarizan inherentemente los criterios de evaluación entre diferentes observadores y ofrecen respuestas más claras. En este trabajo, extendemos las capacidades de los modelos multimodales grandes emergentes (LMMs) para avanzar aún más en la comparación de calidad visual hacia entornos abiertos, que 1) pueden responder a preguntas de rango abierto sobre comparación de calidad; 2) pueden proporcionar razonamientos detallados más allá de respuestas directas. Para ello, proponemos el Co-Instruct. Para entrenar este comparador de calidad visual de código abierto y de rango abierto, el primero en su tipo, recopilamos el conjunto de datos Co-Instruct-562K, proveniente de dos fuentes: (a) descripciones de calidad de imágenes únicas fusionadas con LMM, (b) respuestas del "profesor" GPT-4V sobre datos no etiquetados. Además, para evaluar mejor este entorno, proponemos el MICBench, el primer punto de referencia en comparación de múltiples imágenes para LMMs. Demostramos que Co-Instruct no solo logra un 30% más de precisión superior que los LMMs de código abierto más avanzados, sino que también supera a GPT-4V (su profesor), tanto en puntos de referencia relacionados existentes como en el MICBench propuesto. Nuestro modelo está publicado en https://huggingface.co/q-future/co-instruct.
English
Comparative settings (e.g. pairwise choice, listwise ranking) have been adopted by a wide range of subjective studies for image quality assessment (IQA), as it inherently standardizes the evaluation criteria across different observers and offer more clear-cut responses. In this work, we extend the edge of emerging large multi-modality models (LMMs) to further advance visual quality comparison into open-ended settings, that 1) can respond to open-range questions on quality comparison; 2) can provide detailed reasonings beyond direct answers. To this end, we propose the Co-Instruct. To train this first-of-its-kind open-source open-ended visual quality comparer, we collect the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image quality description, (b) GPT-4V "teacher" responses on unlabeled data. Furthermore, to better evaluate this setting, we propose the MICBench, the first benchmark on multi-image comparison for LMMs. We demonstrate that Co-Instruct not only achieves 30% higher superior accuracy than state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher), on both existing related benchmarks and the proposed MICBench. Our model is published at https://huggingface.co/q-future/co-instruct.
PDF191December 15, 2024