Démystification du paradoxe de la qualité visuelle dans les modèles de langage multimodal de grande envergure
Demystifying the Visual Quality Paradox in Multimodal Large Language Models
June 18, 2025
Auteurs: Shuo Xing, Lanqing Guo, Hongyuan Hua, Seoyoung Lee, Peiran Li, Yufei Wang, Zhangyang Wang, Zhengzhong Tu
cs.AI
Résumé
Les modèles de langage multimodaux de grande envergure (MLLMs) récents excellent dans les tâches de référence en vision et langage, mais on en sait peu sur la manière dont la qualité visuelle des entrées influence leurs réponses. Une meilleure qualité perceptuelle des images se traduit-elle déjà par une meilleure compréhension des MLLMs ? Nous menons la première étude systématique couvrant les principaux MLLMs et une série de benchmarks en vision et langage, en appliquant des dégradations contrôlées et des variations stylistiques à chaque image. Étonnamment, nous découvrons un paradoxe de la qualité visuelle : les performances du modèle, de la tâche, et même des instances individuelles peuvent s’améliorer lorsque les images s’écartent de la fidélité perçue par l’humain. Les pipelines de restauration prêts à l’emploi ne parviennent pas à concilier ces préférences idiosyncrasiques. Pour combler cet écart, nous introduisons le réglage en temps de test de la qualité visuelle (VQ-TTT) – un module d’adaptation léger qui : (1) insère un noyau apprenable de faible rang avant l’encodeur visuel figé pour moduler le contenu fréquentiel ; et (2) affine uniquement les couches superficielles de l’encodeur visuel via LoRA. VQ-TTT ajuste dynamiquement chaque image d’entrée en une seule passe avant, l’alignant sur les préférences spécifiques au modèle et à la tâche. Sur l’ensemble des MLLMs évalués et tous les jeux de données, VQ-TTT améliore significativement la précision moyenne, sans recours à des modèles externes, des caractéristiques mises en cache ou des données d’entraînement supplémentaires. Ces résultats redéfinissent ce que sont des entrées visuelles « meilleures » pour les MLLMs et soulignent la nécessité d’images adaptatives, plutôt que universellement « propres », dans cette nouvelle ère où l’IA devient le principal consommateur de données.
English
Recent Multimodal Large Language Models (MLLMs) excel on benchmark
vision-language tasks, yet little is known about how input visual quality
shapes their responses. Does higher perceptual quality of images already
translate to better MLLM understanding? We conduct the first systematic study
spanning leading MLLMs and a suite of vision-language benchmarks, applying
controlled degradations and stylistic shifts to each image. Surprisingly, we
uncover a visual-quality paradox: model, task, and even individual-instance
performance can improve when images deviate from human-perceived fidelity.
Off-the-shelf restoration pipelines fail to reconcile these idiosyncratic
preferences. To close the gap, we introduce Visual-Quality Test-Time Tuning
(VQ-TTT)-a lightweight adaptation module that: (1) inserts a learnable,
low-rank kernel before the frozen vision encoder to modulate frequency content;
and (2) fine-tunes only shallow vision-encoder layers via LoRA. VQ-TTT
dynamically adjusts each input image in a single forward pass, aligning it with
task-specific model preferences. Across the evaluated MLLMs and all datasets,
VQ-TTT lifts significant average accuracy, with no external models, cached
features, or extra training data. These findings redefine ``better'' visual
inputs for MLLMs and highlight the need for adaptive, rather than universally
``clean'', imagery, in the new era of AI being the main data customer.