다음 토큰만으로 충분: 멀티모달 대형 언어 모델을 활용한 현실적인 이미지 품질 및 미적 점수 평가
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model
March 8, 2025
저자: Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
cs.AI
초록
모바일 인터넷의 급속한 확장은 사용자 생성 콘텐츠(UGC) 이미지의 상당한 증가를 가져왔으며, 이로 인해 UGC 이미지의 철저한 평가가 시급하고 필수적인 과제로 대두되었습니다. 최근 멀티모달 대형 언어 모델(MLLMs)이 이미지 품질 평가(IQA) 및 이미지 미학 평가(IAA) 분야에서 큰 잠재력을 보여주고 있습니다. 그러나 이러한 진전에도 불구하고, UGC 이미지의 품질과 미학을 효과적으로 점수화하는 데는 두 가지 주요 과제가 남아 있습니다: 1) 단일 점수는 계층적인 인간의 인식을 포착하기에 부적합합니다. 2) MLLMs를 사용하여 평균 의견 점수(MOS)와 같은 수치 점수를 출력하는 방법은 여전히 미해결 문제입니다. 이러한 과제를 해결하기 위해, 우리는 14,715개의 UGC 이미지를 포함한 Realistic image Quality and Aesthetic (RealQA)라는 새로운 데이터셋을 소개합니다. 각 이미지는 10개의 세분화된 속성으로 주석 처리되었으며, 이러한 속성은 저수준(예: 이미지 선명도), 중간 수준(예: 주체의 완전성), 고수준(예: 구도)의 세 가지 수준으로 나뉩니다. 또한, MLLMs를 사용하여 수치 점수를 효과적으로 예측하는 방법에 대해 일련의 심층적이고 포괄적인 연구를 수행했습니다. 놀랍게도, 단지 두 개의 추가 유의미한 숫자를 예측함으로써, 다음 토큰 패러다임이 SOTA 성능을 달성할 수 있음을 발견했습니다. 더 나아가, 사고의 연쇄(CoT)와 학습된 세분화된 속성을 결합함으로써, 제안된 방법은 IQA와 IAA를 위한 5개의 공개 데이터셋에서 SOTA 방법을 능가하는 우수한 해석 가능성을 보여주며, 비디오 품질 평가(VQA)에 대한 강력한 제로샷 일반화 능력을 입증했습니다. 코드와 데이터셋은 공개될 예정입니다.
English
The rapid expansion of mobile internet has resulted in a substantial increase
in user-generated content (UGC) images, thereby making the thorough assessment
of UGC images both urgent and essential. Recently, multimodal large language
models (MLLMs) have shown great potential in image quality assessment (IQA) and
image aesthetic assessment (IAA). Despite this progress, effectively scoring
the quality and aesthetics of UGC images still faces two main challenges: 1) A
single score is inadequate to capture the hierarchical human perception. 2) How
to use MLLMs to output numerical scores, such as mean opinion scores (MOS),
remains an open question. To address these challenges, we introduce a novel
dataset, named Realistic image Quality and Aesthetic (RealQA), including 14,715
UGC images, each of which is annoted with 10 fine-grained attributes. These
attributes span three levels: low level (e.g., image clarity), middle level
(e.g., subject integrity) and high level (e.g., composition). Besides, we
conduct a series of in-depth and comprehensive investigations into how to
effectively predict numerical scores using MLLMs. Surprisingly, by predicting
just two extra significant digits, the next token paradigm can achieve SOTA
performance. Furthermore, with the help of chain of thought (CoT) combined with
the learnt fine-grained attributes, the proposed method can outperform SOTA
methods on five public datasets for IQA and IAA with superior interpretability
and show strong zero-shot generalization for video quality assessment (VQA).
The code and dataset will be released.Summary
AI-Generated Summary