RotBench : Évaluation des modèles de langage multimodaux de grande taille sur l'identification de la rotation d'images
RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation
August 19, 2025
papers.authors: Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
cs.AI
papers.abstract
Nous étudions dans quelle mesure les Modèles de Langage Multimodaux (MLLMs) peuvent identifier avec précision l'orientation des images d'entrée tournées à 0°, 90°, 180° et 270°. Cette tâche nécessite des capacités de raisonnement visuel robustes pour détecter les indices de rotation et contextualiser les relations spatiales au sein des images, quelle que soit leur orientation. Pour évaluer ces capacités chez les MLLMs, nous introduisons RotBench — un benchmark de 350 images soigneusement filtrées, comprenant des images de style de vie, des portraits et des paysages. Bien que cette tâche soit relativement simple, nous montrons que plusieurs MLLMs de pointe, ouverts et propriétaires, incluant GPT-5, o3 et Gemini-2.5-Pro, ne parviennent pas à identifier de manière fiable la rotation des images d'entrée. Fournir aux modèles des informations auxiliaires — telles que des légendes, des cartes de profondeur, etc. — ou utiliser l'incitation en chaîne de pensée n'apporte que des améliorations mineures et inconstantes. Nos résultats indiquent que la plupart des modèles sont capables d'identifier de manière fiable les images à l'endroit (0°), tandis que certains modèles parviennent à identifier les images à l'envers (180°). Aucun ne peut distinguer de manière fiable entre 90° et 270°. Montrer simultanément l'image tournée dans différentes orientations entraîne des gains de performance modérés pour les modèles de raisonnement, tandis qu'une configuration modifiée utilisant le vote améliore la performance des modèles plus faibles. Nous montrons en outre que le fine-tuning n'améliore pas la capacité des modèles à distinguer les rotations de 90° et 270°, malgré une amélioration substantielle dans l'identification des images à 180°. Ensemble, ces résultats révèlent un écart significatif entre les capacités de raisonnement spatial des MLLMs et la perception humaine dans l'identification de la rotation.
English
We investigate to what extent Multimodal Large Language Models (MLLMs) can
accurately identify the orientation of input images rotated 0{\deg}, 90{\deg},
180{\deg}, and 270{\deg}. This task demands robust visual reasoning
capabilities to detect rotational cues and contextualize spatial relationships
within images, regardless of their orientation. To evaluate MLLMs on these
abilities, we introduce RotBench -- a 350-image manually-filtered benchmark
comprising lifestyle, portrait, and landscape images. Despite the relatively
simple nature of this task, we show that several state-of-the-art open and
proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably
identify rotation in input images. Providing models with auxiliary information
-- including captions, depth maps, and more -- or using chain-of-thought
prompting offers only small and inconsistent improvements. Our results indicate
that most models are able to reliably identify right-side-up (0{\deg}) images,
while certain models are able to identify upside-down (180{\deg}) images. None
can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing
the image rotated in different orientations leads to moderate performance gains
for reasoning models, while a modified setup using voting improves the
performance of weaker models. We further show that fine-tuning does not improve
models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite
substantially improving the identification of 180{\deg} images. Together, these
results reveal a significant gap between MLLMs' spatial reasoning capabilities
and human perception in identifying rotation.