M3-AGIQA: Valutazione della Qualità delle Immagini Generate da AI Multimodale, Multi-Round, Multi-Aspect
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment
February 21, 2025
Autori: Chuan Cui, Kejiang Chen, Zhihua Wei, Wen Shen, Weiming Zhang, Nenghai Yu
cs.AI
Abstract
Il rapido avanzamento dei modelli di immagini generate da intelligenza artificiale (AGI) ha introdotto significativi sfide nell'valutare la loro qualità, che richiede di considerare molteplici dimensioni come la qualità percettiva, la corrispondenza tempestiva e l'autenticità. Per affrontare queste sfide, proponiamo M3-AGIQA, un framework completo per la valutazione della qualità di AGI che è Multimodale, Multi-Round e Multi-Aspect. Il nostro approccio sfrutta le capacità dei Grandi Modelli Linguistici Multimodali (MLLM) come codificatori congiunti di testo e immagine e distilla le avanzate capacità di didascalia dai MLLM online in un modello locale tramite un fine-tuning di Adattamento a Rango Basso (LoRA). Il framework include un meccanismo strutturato di valutazione multi-round, in cui vengono generate descrizioni di immagini intermedie per fornire approfondimenti sulla qualità, corrispondenza e autenticità. Per allineare le previsioni con i giudizi percettivi umani, un predittore costruito da un xLSTM e una testa di regressione è incorporato per elaborare logit sequenziali e prevedere i Punteggi Medi di Opinione (MOS). Estesi esperimenti condotti su più set di dati di riferimento dimostrano che M3-AGIQA raggiunge prestazioni all'avanguardia, catturando efficacemente aspetti sfumati della qualità di AGI. Inoltre, la validazione cross-dataset conferma la sua forte generalizzabilità. Il codice è disponibile su https://github.com/strawhatboy/M3-AGIQA.
English
The rapid advancement of AI-generated image (AGI) models has introduced
significant challenges in evaluating their quality, which requires considering
multiple dimensions such as perceptual quality, prompt correspondence, and
authenticity. To address these challenges, we propose M3-AGIQA, a comprehensive
framework for AGI quality assessment that is Multimodal, Multi-Round, and
Multi-Aspect. Our approach leverages the capabilities of Multimodal Large
Language Models (MLLMs) as joint text and image encoders and distills advanced
captioning capabilities from online MLLMs into a local model via Low-Rank
Adaptation (LoRA) fine-tuning. The framework includes a structured multi-round
evaluation mechanism, where intermediate image descriptions are generated to
provide deeper insights into the quality, correspondence, and authenticity
aspects. To align predictions with human perceptual judgments, a predictor
constructed by an xLSTM and a regression head is incorporated to process
sequential logits and predict Mean Opinion Scores (MOSs). Extensive experiments
conducted on multiple benchmark datasets demonstrate that M3-AGIQA achieves
state-of-the-art performance, effectively capturing nuanced aspects of AGI
quality. Furthermore, cross-dataset validation confirms its strong
generalizability. The code is available at
https://github.com/strawhatboy/M3-AGIQA.Summary
AI-Generated Summary