Gleicher Inhalt, unterschiedliche Antworten: Kreuzmodale Inkonsistenz in MLLMs
Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs
December 9, 2025
papers.authors: Angela van Sprang, Laurens Samson, Ana Lucic, Erman Acar, Sennay Ghebreab, Yuki M. Asano
cs.AI
papers.abstract
Wir stellen zwei neue Benchmarks, REST und REST+ (Render-Equivalence Stress Tests), vor, um eine systematische Bewertung von kreuzmodaler Inkonsistenz in multimodalen großen Sprachmodellen (MLLMs) zu ermöglichen. MLLMs werden trainiert, um Vision und Sprache in demselben Einbettungsraum abzubilden, doch können sie nicht die gleichen Aufgaben in beiden Modalitäten ausführen. Unsere Benchmarks enthalten Proben mit derselben semantischen Information in drei Modalitäten (Bild, Text, gemischt), und wir zeigen, dass state-of-the-art MLLMs nicht konsistent über diese verschiedenen Modalitäten hinweg schlussfolgern können. Wir evaluieren 15 MLLMs und stellen fest, dass das Ausmaß der Modalitätsinkonsistenz erheblich variiert, selbst wenn Probleme mit Texterkennung (OCR) berücksichtigt werden. Weder das Rendern von Text als Bild noch das Rendern eines Bildes als Text löst die Inkonsistenz. Selbst wenn die OCR korrekt ist, stellen wir fest, dass visuelle Merkmale (Textfarbe und Auflösung, aber nicht Schriftart) und die Anzahl der Vision-Tokens einen Einfluss auf die Modellleistung haben. Schließlich finden wir, dass unser Konsistenz-Score mit der Modalitätslücke zwischen Text und Bildern korreliert, was eine mechanistische Interpretation von kreuzmodal inkonsistenten MLLMs hervorhebt.
English
We introduce two new benchmarks REST and REST+(Render-Equivalence Stress Tests) to enable systematic evaluation of cross-modal inconsistency in multimodal large language models (MLLMs). MLLMs are trained to represent vision and language in the same embedding space, yet they cannot perform the same tasks in both modalities. Our benchmarks contain samples with the same semantic information in three modalities (image, text, mixed) and we show that state-of-the-art MLLMs cannot consistently reason over these different modalities. We evaluate 15 MLLMs and find that the degree of modality inconsistency varies substantially, even when accounting for problems with text recognition (OCR). Neither rendering text as image nor rendering an image as text solves the inconsistency. Even if OCR is correct, we find that visual characteristics (text colour and resolution, but not font) and the number of vision tokens have an impact on model performance. Finally, we find that our consistency score correlates with the modality gap between text and images, highlighting a mechanistic interpretation of cross-modal inconsistent MLLMs.