Dezelfde inhoud, verschillende antwoorden: kruismodale inconsistentie in MLLM's
Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs
December 9, 2025
Auteurs: Angela van Sprang, Laurens Samson, Ana Lucic, Erman Acar, Sennay Ghebreab, Yuki M. Asano
cs.AI
Samenvatting
Wij introduceren twee nieuwe benchmarks, REST en REST+ (Render-Equivalence Stress Tests), om een systematische evaluatie van cross-modale inconsistentie in multimodale grote taalmodellen (MLLM's) mogelijk te maken. MLLM's worden getraind om visie en taal in dezelfde embeddingruimte te representeren, maar zij kunnen niet dezelfde taken uitvoeren in beide modaliteiten. Onze benchmarks bevatten voorbeelden met dezelfde semantische informatie in drie modaliteiten (beeld, tekst, gemengd) en wij tonen aan dat state-of-the-art MLLM's niet consistent kunnen redeneren over deze verschillende modaliteiten. Wij evalueren 15 MLLM's en constateren dat de mate van modale inconsistentie aanzienlijk varieert, zelfs wanneer rekening wordt gehouden met problemen met tekstherkenning (OCR). Noch het renderen van tekst als beeld, noch het renderen van een beeld als tekst lost de inconsistentie op. Zelfs als OCR correct is, stellen wij vast dat visuele kenmerken (tekstkleur en resolutie, maar niet lettertype) en het aantal visie-tokens een impact hebben op de modelprestaties. Ten slotte constateren wij dat onze consistentiescore correleert met de modale kloof tussen tekst en beelden, wat een mechanistische interpretatie van cross-modale inconsistente MLLM's benadrukt.
English
We introduce two new benchmarks REST and REST+(Render-Equivalence Stress Tests) to enable systematic evaluation of cross-modal inconsistency in multimodal large language models (MLLMs). MLLMs are trained to represent vision and language in the same embedding space, yet they cannot perform the same tasks in both modalities. Our benchmarks contain samples with the same semantic information in three modalities (image, text, mixed) and we show that state-of-the-art MLLMs cannot consistently reason over these different modalities. We evaluate 15 MLLMs and find that the degree of modality inconsistency varies substantially, even when accounting for problems with text recognition (OCR). Neither rendering text as image nor rendering an image as text solves the inconsistency. Even if OCR is correct, we find that visual characteristics (text colour and resolution, but not font) and the number of vision tokens have an impact on model performance. Finally, we find that our consistency score correlates with the modality gap between text and images, highlighting a mechanistic interpretation of cross-modal inconsistent MLLMs.