Desmistificando o Paradoxo da Qualidade Visual em Modelos de Linguagem Multimodais de Grande Escala
Demystifying the Visual Quality Paradox in Multimodal Large Language Models
June 18, 2025
Autores: Shuo Xing, Lanqing Guo, Hongyuan Hua, Seoyoung Lee, Peiran Li, Yufei Wang, Zhangyang Wang, Zhengzhong Tu
cs.AI
Resumo
Modelos Multimodais de Grande Escala (MLLMs) recentes se destacam em tarefas de referência de visão e linguagem, mas pouco se sabe sobre como a qualidade visual da entrada molda suas respostas. Será que uma maior qualidade perceptual das imagens já se traduz em uma melhor compreensão por parte dos MLLMs? Realizamos o primeiro estudo sistemático abrangendo os principais MLLMs e uma série de benchmarks de visão e linguagem, aplicando degradações controladas e mudanças estilísticas a cada imagem. Surpreendentemente, descobrimos um paradoxo de qualidade visual: o desempenho do modelo, da tarefa e até mesmo de instâncias individuais pode melhorar quando as imagens se desviam da fidelidade percebida por humanos. Pipelines de restauração prontas para uso não conseguem reconciliar essas preferências idiossincráticas. Para fechar essa lacuna, introduzimos o Ajuste em Tempo de Teste de Qualidade Visual (VQ-TTT) — um módulo de adaptação leve que: (1) insere um kernel de baixa ordem aprendível antes do codificador visual congelado para modular o conteúdo de frequência; e (2) ajusta finamente apenas as camadas superficiais do codificador visual via LoRA. O VQ-TTT ajusta dinamicamente cada imagem de entrada em uma única passagem direta, alinhando-a com as preferências específicas da tarefa do modelo. Em todos os MLLMs avaliados e em todos os conjuntos de dados, o VQ-TTT aumenta significativamente a precisão média, sem a necessidade de modelos externos, recursos armazenados em cache ou dados de treinamento adicionais. Essas descobertas redefinem o que são entradas visuais "melhores" para MLLMs e destacam a necessidade de imagens adaptativas, em vez de universalmente "limpas", nesta nova era em que a IA é o principal consumidor de dados.
English
Recent Multimodal Large Language Models (MLLMs) excel on benchmark
vision-language tasks, yet little is known about how input visual quality
shapes their responses. Does higher perceptual quality of images already
translate to better MLLM understanding? We conduct the first systematic study
spanning leading MLLMs and a suite of vision-language benchmarks, applying
controlled degradations and stylistic shifts to each image. Surprisingly, we
uncover a visual-quality paradox: model, task, and even individual-instance
performance can improve when images deviate from human-perceived fidelity.
Off-the-shelf restoration pipelines fail to reconcile these idiosyncratic
preferences. To close the gap, we introduce Visual-Quality Test-Time Tuning
(VQ-TTT)-a lightweight adaptation module that: (1) inserts a learnable,
low-rank kernel before the frozen vision encoder to modulate frequency content;
and (2) fine-tunes only shallow vision-encoder layers via LoRA. VQ-TTT
dynamically adjusts each input image in a single forward pass, aligning it with
task-specific model preferences. Across the evaluated MLLMs and all datasets,
VQ-TTT lifts significant average accuracy, with no external models, cached
features, or extra training data. These findings redefine ``better'' visual
inputs for MLLMs and highlight the need for adaptive, rather than universally
``clean'', imagery, in the new era of AI being the main data customer.