ChatPaper.aiChatPaper

Entmystifizierung des visuellen Qualitätsparadoxons in multimodalen Large Language Models

Demystifying the Visual Quality Paradox in Multimodal Large Language Models

June 18, 2025
Autoren: Shuo Xing, Lanqing Guo, Hongyuan Hua, Seoyoung Lee, Peiran Li, Yufei Wang, Zhangyang Wang, Zhengzhong Tu
cs.AI

Zusammenfassung

Aktuelle Multimodale Große Sprachmodelle (MLLMs) übertreffen sich bei Benchmark-Aufgaben im Bereich Vision-Sprache, doch es ist wenig darüber bekannt, wie die visuelle Qualität der Eingaben ihre Antworten beeinflusst. Führt eine höhere wahrgenommene Bildqualität bereits zu einem besseren Verständnis der MLLMs? Wir führen die erste systematische Studie durch, die führende MLLMs und eine Reihe von Vision-Sprache-Benchmarks umfasst, wobei wir kontrollierte Verschlechterungen und stilistische Veränderungen auf jedes Bild anwenden. Überraschenderweise entdecken wir ein visuelles Qualitäts-Paradoxon: Die Leistung des Modells, der Aufgabe und sogar einzelner Instanzen kann sich verbessern, wenn Bilder von der menschlich wahrgenommenen Treue abweichen. Standardmäßige Restaurationspipelines können diese idiosynkratischen Präferenzen nicht in Einklang bringen. Um diese Lücke zu schließen, führen wir Visual-Quality Test-Time Tuning (VQ-TTT) ein – ein leichtgewichtiges Anpassungsmodul, das: (1) einen lernfähigen, niedrigrangigen Kernel vor dem eingefrorenen Vision-Encoder einfügt, um den Frequenzgehalt zu modulieren; und (2) nur flache Vision-Encoder-Schichten über LoRA feinabstimmt. VQ-TTT passt jedes Eingabebild dynamisch in einem einzigen Vorwärtsdurchlauf an und richtet es an den aufgabenspezifischen Modellpräferenzen aus. Über alle evaluierten MLLMs und Datensätze hinweg steigert VQ-TTT die durchschnittliche Genauigkeit signifikant, ohne externe Modelle, zwischengespeicherte Merkmale oder zusätzliche Trainingsdaten. Diese Ergebnisse definieren „bessere“ visuelle Eingaben für MLLMs neu und unterstreichen die Notwendigkeit adaptiver, anstatt universell „sauberer“ Bilddaten in der neuen Ära, in der KI der Hauptdatennutzer ist.
English
Recent Multimodal Large Language Models (MLLMs) excel on benchmark vision-language tasks, yet little is known about how input visual quality shapes their responses. Does higher perceptual quality of images already translate to better MLLM understanding? We conduct the first systematic study spanning leading MLLMs and a suite of vision-language benchmarks, applying controlled degradations and stylistic shifts to each image. Surprisingly, we uncover a visual-quality paradox: model, task, and even individual-instance performance can improve when images deviate from human-perceived fidelity. Off-the-shelf restoration pipelines fail to reconcile these idiosyncratic preferences. To close the gap, we introduce Visual-Quality Test-Time Tuning (VQ-TTT)-a lightweight adaptation module that: (1) inserts a learnable, low-rank kernel before the frozen vision encoder to modulate frequency content; and (2) fine-tunes only shallow vision-encoder layers via LoRA. VQ-TTT dynamically adjusts each input image in a single forward pass, aligning it with task-specific model preferences. Across the evaluated MLLMs and all datasets, VQ-TTT lifts significant average accuracy, with no external models, cached features, or extra training data. These findings redefine ``better'' visual inputs for MLLMs and highlight the need for adaptive, rather than universally ``clean'', imagery, in the new era of AI being the main data customer.
PDF42June 24, 2025