Démystification du paradoxe de la qualité visuelle dans les modèles de langage multimodal de grande envergure

papers.abstract

Les modèles de langage multimodaux de grande envergure (MLLMs) récents excellent dans les tâches de référence en vision et langage, mais on en sait peu sur la manière dont la qualité visuelle des entrées influence leurs réponses. Une meilleure qualité perceptuelle des images se traduit-elle déjà par une meilleure compréhension des MLLMs ? Nous menons la première étude systématique couvrant les principaux MLLMs et une série de benchmarks en vision et langage, en appliquant des dégradations contrôlées et des variations stylistiques à chaque image. Étonnamment, nous découvrons un paradoxe de la qualité visuelle : les performances du modèle, de la tâche, et même des instances individuelles peuvent s’améliorer lorsque les images s’écartent de la fidélité perçue par l’humain. Les pipelines de restauration prêts à l’emploi ne parviennent pas à concilier ces préférences idiosyncrasiques. Pour combler cet écart, nous introduisons le réglage en temps de test de la qualité visuelle (VQ-TTT) – un module d’adaptation léger qui : (1) insère un noyau apprenable de faible rang avant l’encodeur visuel figé pour moduler le contenu fréquentiel ; et (2) affine uniquement les couches superficielles de l’encodeur visuel via LoRA. VQ-TTT ajuste dynamiquement chaque image d’entrée en une seule passe avant, l’alignant sur les préférences spécifiques au modèle et à la tâche. Sur l’ensemble des MLLMs évalués et tous les jeux de données, VQ-TTT améliore significativement la précision moyenne, sans recours à des modèles externes, des caractéristiques mises en cache ou des données d’entraînement supplémentaires. Ces résultats redéfinissent ce que sont des entrées visuelles « meilleures » pour les MLLMs et soulignent la nécessité d’images adaptatives, plutôt que universellement « propres », dans cette nouvelle ère où l’IA devient le principal consommateur de données.

English

Recent Multimodal Large Language Models (MLLMs) excel on benchmark vision-language tasks, yet little is known about how input visual quality shapes their responses. Does higher perceptual quality of images already translate to better MLLM understanding? We conduct the first systematic study spanning leading MLLMs and a suite of vision-language benchmarks, applying controlled degradations and stylistic shifts to each image. Surprisingly, we uncover a visual-quality paradox: model, task, and even individual-instance performance can improve when images deviate from human-perceived fidelity. Off-the-shelf restoration pipelines fail to reconcile these idiosyncratic preferences. To close the gap, we introduce Visual-Quality Test-Time Tuning (VQ-TTT)-a lightweight adaptation module that: (1) inserts a learnable, low-rank kernel before the frozen vision encoder to modulate frequency content; and (2) fine-tunes only shallow vision-encoder layers via LoRA. VQ-TTT dynamically adjusts each input image in a single forward pass, aligning it with task-specific model preferences. Across the evaluated MLLMs and all datasets, VQ-TTT lifts significant average accuracy, with no external models, cached features, or extra training data. These findings redefine ``better'' visual inputs for MLLMs and highlight the need for adaptive, rather than universally ``clean'', imagery, in the new era of AI being the main data customer.

Démystification du paradoxe de la qualité visuelle dans les modèles de langage multimodal de grande envergure

Demystifying the Visual Quality Paradox in Multimodal Large Language Models

papers.abstract

Support