RotBench: Evaluatie van Multimodale Grote Taalmodellen op het Identificeren van Beeldrotatie
RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation
August 19, 2025
Auteurs: Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Samenvatting
We onderzoeken in hoeverre Multimodale Large Language Models (MLLMs) nauwkeurig de oriëntatie van invoerafbeeldingen die 0°, 90°, 180° en 270° zijn geroteerd, kunnen identificeren. Deze taak vereist robuuste visuele redeneervaardigheden om rotatiekenmerken te detecteren en ruimtelijke relaties binnen afbeeldingen te contextualiseren, ongeacht hun oriëntatie. Om MLLMs op deze vaardigheden te evalueren, introduceren we RotBench -- een handmatig gefilterde benchmark van 350 afbeeldingen bestaande uit lifestyle-, portret- en landschapsafbeeldingen. Ondanks de relatief eenvoudige aard van deze taak, tonen we aan dat verschillende state-of-the-art open en propriëtaire MLLMs, waaronder GPT-5, o3 en Gemini-2.5-Pro, niet betrouwbaar rotatie in invoerafbeeldingen kunnen identificeren. Het verstrekken van modellen met aanvullende informatie -- inclusief bijschriften, dieptekaarten en meer -- of het gebruik van chain-of-thought prompting biedt slechts kleine en inconsistente verbeteringen. Onze resultaten geven aan dat de meeste modellen betrouwbaar rechtopstaande (0°) afbeeldingen kunnen identificeren, terwijl bepaalde modellen ondersteboven (180°) afbeeldingen kunnen herkennen. Geen enkel model kan betrouwbaar onderscheid maken tussen 90° en 270°. Het gelijktijdig tonen van de afbeelding in verschillende oriëntaties leidt tot matige prestatieverbeteringen voor redeneermodellen, terwijl een aangepaste opzet met stemmen de prestaties van zwakkere modellen verbetert. We laten verder zien dat fine-tuning het vermogen van modellen om 90° en 270° rotaties te onderscheiden niet verbetert, ondanks een aanzienlijke verbetering in de identificatie van 180° afbeeldingen. Samen onthullen deze resultaten een significante kloof tussen de ruimtelijke redeneervaardigheden van MLLMs en de menselijke perceptie bij het identificeren van rotatie.
English
We investigate to what extent Multimodal Large Language Models (MLLMs) can
accurately identify the orientation of input images rotated 0{\deg}, 90{\deg},
180{\deg}, and 270{\deg}. This task demands robust visual reasoning
capabilities to detect rotational cues and contextualize spatial relationships
within images, regardless of their orientation. To evaluate MLLMs on these
abilities, we introduce RotBench -- a 350-image manually-filtered benchmark
comprising lifestyle, portrait, and landscape images. Despite the relatively
simple nature of this task, we show that several state-of-the-art open and
proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably
identify rotation in input images. Providing models with auxiliary information
-- including captions, depth maps, and more -- or using chain-of-thought
prompting offers only small and inconsistent improvements. Our results indicate
that most models are able to reliably identify right-side-up (0{\deg}) images,
while certain models are able to identify upside-down (180{\deg}) images. None
can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing
the image rotated in different orientations leads to moderate performance gains
for reasoning models, while a modified setup using voting improves the
performance of weaker models. We further show that fine-tuning does not improve
models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite
substantially improving the identification of 180{\deg} images. Together, these
results reveal a significant gap between MLLMs' spatial reasoning capabilities
and human perception in identifying rotation.