ChatPaper.aiChatPaper

RotBench: Bewertung multimodaler großer Sprachmodelle bei der Erkennung von Bildrotationen

RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation

August 19, 2025
papers.authors: Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
cs.AI

papers.abstract

Wir untersuchen, inwieweit Multimodale Große Sprachmodelle (MLLMs) die Ausrichtung von Eingabebildern, die um 0°, 90°, 180° und 270° gedreht sind, korrekt identifizieren können. Diese Aufgabe erfordert robuste visuelle Fähigkeiten, um Rotationshinweise zu erkennen und räumliche Beziehungen innerhalb der Bilder unabhängig von ihrer Ausrichtung zu kontextualisieren. Um MLLMs hinsichtlich dieser Fähigkeiten zu bewerten, führen wir RotBench ein – einen manuell gefilterten Benchmark mit 350 Bildern, bestehend aus Lifestyle-, Porträt- und Landschaftsaufnahmen. Trotz der relativ einfachen Natur dieser Aufgabe zeigen wir, dass mehrere state-of-the-art offene und proprietäre MLLMs, einschließlich GPT-5, o3 und Gemini-2.5-Pro, die Rotation in Eingabebildern nicht zuverlässig erkennen können. Die Bereitstellung von zusätzlichen Informationen – wie Bildbeschreibungen, Tiefenkarten und mehr – oder die Verwendung von Chain-of-Thought-Prompting führt nur zu geringen und inkonsistenten Verbesserungen. Unsere Ergebnisse zeigen, dass die meisten Modelle Bilder in der korrekten Ausrichtung (0°) zuverlässig identifizieren können, während bestimmte Modelle auch auf dem Kopf stehende Bilder (180°) erkennen können. Keines der Modelle kann jedoch zuverlässig zwischen 90° und 270° unterscheiden. Die gleichzeitige Darstellung des Bildes in verschiedenen Ausrichtungen führt zu moderaten Leistungssteigerungen bei Modellen mit Reasoning-Fähigkeiten, während ein modifiziertes Setup mit Abstimmung die Leistung schwächerer Modelle verbessert. Wir zeigen weiterhin, dass Fine-Tuning die Fähigkeit der Modelle, 90°- und 270°-Rotationen zu unterscheiden, nicht verbessert, obwohl die Identifikation von 180°-Bildern erheblich gesteigert wird. Zusammengenommen offenbaren diese Ergebnisse eine signifikante Lücke zwischen den räumlichen Reasoning-Fähigkeiten von MLLMs und der menschlichen Wahrnehmung bei der Erkennung von Rotationen.
English
We investigate to what extent Multimodal Large Language Models (MLLMs) can accurately identify the orientation of input images rotated 0{\deg}, 90{\deg}, 180{\deg}, and 270{\deg}. This task demands robust visual reasoning capabilities to detect rotational cues and contextualize spatial relationships within images, regardless of their orientation. To evaluate MLLMs on these abilities, we introduce RotBench -- a 350-image manually-filtered benchmark comprising lifestyle, portrait, and landscape images. Despite the relatively simple nature of this task, we show that several state-of-the-art open and proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably identify rotation in input images. Providing models with auxiliary information -- including captions, depth maps, and more -- or using chain-of-thought prompting offers only small and inconsistent improvements. Our results indicate that most models are able to reliably identify right-side-up (0{\deg}) images, while certain models are able to identify upside-down (180{\deg}) images. None can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing the image rotated in different orientations leads to moderate performance gains for reasoning models, while a modified setup using voting improves the performance of weaker models. We further show that fine-tuning does not improve models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite substantially improving the identification of 180{\deg} images. Together, these results reveal a significant gap between MLLMs' spatial reasoning capabilities and human perception in identifying rotation.
PDF01August 20, 2025