Demistificare il Paradosso della Qualità Visiva nei Modelli Linguistici Multimodali di Grande Dimensione
Demystifying the Visual Quality Paradox in Multimodal Large Language Models
June 18, 2025
Autori: Shuo Xing, Lanqing Guo, Hongyuan Hua, Seoyoung Lee, Peiran Li, Yufei Wang, Zhangyang Wang, Zhengzhong Tu
cs.AI
Abstract
I recenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) eccellono nei benchmark di compiti visivo-linguistici, ma si sa poco su come la qualità visiva degli input influenzi le loro risposte. Una maggiore qualità percettiva delle immagini si traduce già in una migliore comprensione da parte degli MLLM? Abbiamo condotto il primo studio sistematico che abbraccia i principali MLLM e una serie di benchmark visivo-linguistici, applicando degradazioni controllate e cambiamenti stilistici a ciascuna immagine. Sorprendentemente, abbiamo scoperto un paradosso della qualità visiva: le prestazioni del modello, del compito e persino di singole istanze possono migliorare quando le immagini deviano dalla fedeltà percepita dall'uomo. Le pipeline di ripristino pronte all'uso non riescono a conciliare queste preferenze idiosincratiche. Per colmare questa lacuna, introduciamo il Visual-Quality Test-Time Tuning (VQ-TTT), un modulo di adattamento leggero che: (1) inserisce un kernel apprendibile a basso rango prima dell'encoder visivo congelato per modulare il contenuto in frequenza; e (2) ottimizza solo gli strati superficiali dell'encoder visivo tramite LoRA. VQ-TTT regola dinamicamente ogni immagine di input in un singolo passaggio in avanti, allineandola con le preferenze specifiche del modello per il compito. Attraverso gli MLLM valutati e tutti i dataset, VQ-TTT aumenta significativamente l'accuratezza media, senza l'uso di modelli esterni, feature memorizzate o dati di addestramento aggiuntivi. Questi risultati ridefiniscono gli input visivi "migliori" per gli MLLM e sottolineano la necessità di immagini adattive, piuttosto che universalmente "pulite", nella nuova era in cui l'IA è il principale consumatore di dati.
English
Recent Multimodal Large Language Models (MLLMs) excel on benchmark
vision-language tasks, yet little is known about how input visual quality
shapes their responses. Does higher perceptual quality of images already
translate to better MLLM understanding? We conduct the first systematic study
spanning leading MLLMs and a suite of vision-language benchmarks, applying
controlled degradations and stylistic shifts to each image. Surprisingly, we
uncover a visual-quality paradox: model, task, and even individual-instance
performance can improve when images deviate from human-perceived fidelity.
Off-the-shelf restoration pipelines fail to reconcile these idiosyncratic
preferences. To close the gap, we introduce Visual-Quality Test-Time Tuning
(VQ-TTT)-a lightweight adaptation module that: (1) inserts a learnable,
low-rank kernel before the frozen vision encoder to modulate frequency content;
and (2) fine-tunes only shallow vision-encoder layers via LoRA. VQ-TTT
dynamically adjusts each input image in a single forward pass, aligning it with
task-specific model preferences. Across the evaluated MLLMs and all datasets,
VQ-TTT lifts significant average accuracy, with no external models, cached
features, or extra training data. These findings redefine ``better'' visual
inputs for MLLMs and highlight the need for adaptive, rather than universally
``clean'', imagery, in the new era of AI being the main data customer.