RotBench: Valutazione dei Modelli Linguistici Multimodali di Grande Scala nell'Identificazione della Rotazione delle Immagini

Abstract

Indaghiamo fino a che punto i Modelli Linguistici Multimodali di Grande Scala (MLLMs) siano in grado di identificare accuratamente l'orientamento di immagini ruotate di 0°, 90°, 180° e 270°. Questo compito richiede robuste capacità di ragionamento visivo per rilevare indizi di rotazione e contestualizzare le relazioni spaziali all'interno delle immagini, indipendentemente dal loro orientamento. Per valutare queste abilità negli MLLMs, introduciamo RotBench -- un benchmark di 350 immagini filtrate manualmente, comprendente immagini di vita quotidiana, ritratti e paesaggi. Nonostante la natura relativamente semplice di questo compito, dimostriamo che diversi MLLMs all'avanguardia, sia open che proprietari, tra cui GPT-5, o3 e Gemini-2.5-Pro, non identificano in modo affidabile la rotazione nelle immagini di input. Fornire ai modelli informazioni ausiliarie -- come didascalie, mappe di profondità e altro -- o utilizzare il prompting a catena di pensiero offre solo miglioramenti piccoli e inconsistenti. I nostri risultati indicano che la maggior parte dei modelli è in grado di identificare in modo affidabile immagini dritte (0°), mentre alcuni modelli riescono a identificare immagini capovolte (180°). Nessun modello è in grado di distinguere in modo affidabile tra 90° e 270°. Mostrare simultaneamente l'immagine ruotata in diverse orientazioni porta a moderati miglioramenti delle prestazioni per i modelli di ragionamento, mentre una configurazione modificata che utilizza il voto migliora le prestazioni dei modelli più deboli. Mostriamo inoltre che il fine-tuning non migliora la capacità dei modelli di distinguere le rotazioni di 90° e 270°, nonostante migliori sostanzialmente l'identificazione delle immagini ruotate di 180°. Insieme, questi risultati rivelano un divario significativo tra le capacità di ragionamento spaziale degli MLLMs e la percezione umana nell'identificazione della rotazione.

English

We investigate to what extent Multimodal Large Language Models (MLLMs) can accurately identify the orientation of input images rotated 0{\deg}, 90{\deg}, 180{\deg}, and 270{\deg}. This task demands robust visual reasoning capabilities to detect rotational cues and contextualize spatial relationships within images, regardless of their orientation. To evaluate MLLMs on these abilities, we introduce RotBench -- a 350-image manually-filtered benchmark comprising lifestyle, portrait, and landscape images. Despite the relatively simple nature of this task, we show that several state-of-the-art open and proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably identify rotation in input images. Providing models with auxiliary information -- including captions, depth maps, and more -- or using chain-of-thought prompting offers only small and inconsistent improvements. Our results indicate that most models are able to reliably identify right-side-up (0{\deg}) images, while certain models are able to identify upside-down (180{\deg}) images. None can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing the image rotated in different orientations leads to moderate performance gains for reasoning models, while a modified setup using voting improves the performance of weaker models. We further show that fine-tuning does not improve models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite substantially improving the identification of 180{\deg} images. Together, these results reveal a significant gap between MLLMs' spatial reasoning capabilities and human perception in identifying rotation.

RotBench: Valutazione dei Modelli Linguistici Multimodali di Grande Scala nell'Identificazione della Rotazione delle Immagini

RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation

Abstract

Support