ChatPaper.aiChatPaper

동일한 내용, 다른 답변: MLLM의 교차 모달 불일치 현상

Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs

December 9, 2025
저자: Angela van Sprang, Laurens Samson, Ana Lucic, Erman Acar, Sennay Ghebreab, Yuki M. Asano
cs.AI

초록

다중모드 대규모 언어 모델(MLLM)의 교차 모드 불일치를 체계적으로 평가할 수 있는 두 가지 새로운 벤치마크인 REST와 REST+(Render-Equivalence Stress Tests)를 소개합니다. MLLM은 시각과 언어를 동일한 임베딩 공간에 표현하도록 훈련되었음에도 불구하고 두 모드에서 동일한 작업을 수행하지 못합니다. 본 벤치마크는 세 가지 모드(이미지, 텍스트, 혼합)로 동일한 의미 정보를 포함하는 샘플로 구성되어 있으며, 최첨단 MLLM들이 이러한 서로 다른 모드에 대해 일관적으로 추론하지 못함을 보여줍니다. 15개의 MLLM을 평가한 결과, 텍스트 인식(OCR)의 문제점을 고려하더라도 모드 불일치 정도가 크게 다양함을 확인했습니다. 텍스트를 이미지로 렌더링하거나 이미지를 텍스트로 렌더링하는 것 모두 불일치 문제를 해결하지 못했습니다. OCR이 정확하더라도 시각적 특성(텍스트 색상 및 해상도, 단 글꼴은 제외)과 시각 토큰의 수가 모델 성능에 영향을 미친다는 사실을 발견했습니다. 마지막으로, 본 연구의 일관성 점수는 텍스트와 이미지 간의 모드 격차와 상관관계가 있어 교차 모드 불일치 MLLM의 메커니즘적 해석을 강조합니다.
English
We introduce two new benchmarks REST and REST+(Render-Equivalence Stress Tests) to enable systematic evaluation of cross-modal inconsistency in multimodal large language models (MLLMs). MLLMs are trained to represent vision and language in the same embedding space, yet they cannot perform the same tasks in both modalities. Our benchmarks contain samples with the same semantic information in three modalities (image, text, mixed) and we show that state-of-the-art MLLMs cannot consistently reason over these different modalities. We evaluate 15 MLLMs and find that the degree of modality inconsistency varies substantially, even when accounting for problems with text recognition (OCR). Neither rendering text as image nor rendering an image as text solves the inconsistency. Even if OCR is correct, we find that visual characteristics (text colour and resolution, but not font) and the number of vision tokens have an impact on model performance. Finally, we find that our consistency score correlates with the modality gap between text and images, highlighting a mechanistic interpretation of cross-modal inconsistent MLLMs.
PDF01December 11, 2025