RotBench: Valutazione dei Modelli Linguistici Multimodali di Grande Scala nell'Identificazione della Rotazione delle Immagini
RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation
August 19, 2025
Autori: Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Abstract
Indaghiamo fino a che punto i Modelli Linguistici Multimodali di Grande Scala (MLLMs) siano in grado di identificare accuratamente l'orientamento di immagini ruotate di 0°, 90°, 180° e 270°. Questo compito richiede robuste capacità di ragionamento visivo per rilevare indizi di rotazione e contestualizzare le relazioni spaziali all'interno delle immagini, indipendentemente dal loro orientamento. Per valutare queste abilità negli MLLMs, introduciamo RotBench -- un benchmark di 350 immagini filtrate manualmente, comprendente immagini di vita quotidiana, ritratti e paesaggi. Nonostante la natura relativamente semplice di questo compito, dimostriamo che diversi MLLMs all'avanguardia, sia open che proprietari, tra cui GPT-5, o3 e Gemini-2.5-Pro, non identificano in modo affidabile la rotazione nelle immagini di input. Fornire ai modelli informazioni ausiliarie -- come didascalie, mappe di profondità e altro -- o utilizzare il prompting a catena di pensiero offre solo miglioramenti piccoli e inconsistenti. I nostri risultati indicano che la maggior parte dei modelli è in grado di identificare in modo affidabile immagini dritte (0°), mentre alcuni modelli riescono a identificare immagini capovolte (180°). Nessun modello è in grado di distinguere in modo affidabile tra 90° e 270°. Mostrare simultaneamente l'immagine ruotata in diverse orientazioni porta a moderati miglioramenti delle prestazioni per i modelli di ragionamento, mentre una configurazione modificata che utilizza il voto migliora le prestazioni dei modelli più deboli. Mostriamo inoltre che il fine-tuning non migliora la capacità dei modelli di distinguere le rotazioni di 90° e 270°, nonostante migliori sostanzialmente l'identificazione delle immagini ruotate di 180°. Insieme, questi risultati rivelano un divario significativo tra le capacità di ragionamento spaziale degli MLLMs e la percezione umana nell'identificazione della rotazione.
English
We investigate to what extent Multimodal Large Language Models (MLLMs) can
accurately identify the orientation of input images rotated 0{\deg}, 90{\deg},
180{\deg}, and 270{\deg}. This task demands robust visual reasoning
capabilities to detect rotational cues and contextualize spatial relationships
within images, regardless of their orientation. To evaluate MLLMs on these
abilities, we introduce RotBench -- a 350-image manually-filtered benchmark
comprising lifestyle, portrait, and landscape images. Despite the relatively
simple nature of this task, we show that several state-of-the-art open and
proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably
identify rotation in input images. Providing models with auxiliary information
-- including captions, depth maps, and more -- or using chain-of-thought
prompting offers only small and inconsistent improvements. Our results indicate
that most models are able to reliably identify right-side-up (0{\deg}) images,
while certain models are able to identify upside-down (180{\deg}) images. None
can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing
the image rotated in different orientations leads to moderate performance gains
for reasoning models, while a modified setup using voting improves the
performance of weaker models. We further show that fine-tuning does not improve
models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite
substantially improving the identification of 180{\deg} images. Together, these
results reveal a significant gap between MLLMs' spatial reasoning capabilities
and human perception in identifying rotation.