ChatPaper.aiChatPaper

RotBench: Оценка мультимодальных больших языковых моделей на задаче определения поворота изображений

RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation

August 19, 2025
Авторы: Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
cs.AI

Аннотация

Мы исследуем, в какой степени многомодальные большие языковые модели (MLLMs) способны точно определять ориентацию входных изображений, повернутых на 0°, 90°, 180° и 270°. Эта задача требует развитых способностей к визуальному анализу для обнаружения признаков поворота и контекстуализации пространственных отношений внутри изображений, независимо от их ориентации. Для оценки этих способностей MLLMs мы представляем RotBench — ручной бенчмарк из 350 изображений, включающих сцены из повседневной жизни, портреты и пейзажи. Несмотря на относительно простой характер задачи, мы показываем, что несколько современных открытых и проприетарных MLLMs, включая GPT-5, o3 и Gemini-2.5-Pro, не могут надежно определять поворот входных изображений. Предоставление моделям дополнительной информации — включая подписи, карты глубины и другие данные — или использование цепочек рассуждений (chain-of-thought prompting) дает лишь незначительные и нестабильные улучшения. Наши результаты показывают, что большинство моделей способны надежно определять изображения в правильной ориентации (0°), тогда как некоторые модели могут распознавать перевернутые изображения (180°). Ни одна из моделей не может надежно различить повороты на 90° и 270°. Одновременное отображение изображения в разных ориентациях приводит к умеренному улучшению производительности моделей, использующих рассуждения, в то время как модифицированная схема с использованием голосования повышает производительность более слабых моделей. Мы также показываем, что тонкая настройка (fine-tuning) не улучшает способность моделей различать повороты на 90° и 270°, несмотря на значительное улучшение в распознавании изображений, повернутых на 180°. В совокупности эти результаты выявляют значительный разрыв между способностями MLLMs к пространственному анализу и человеческим восприятием в определении поворота изображений.
English
We investigate to what extent Multimodal Large Language Models (MLLMs) can accurately identify the orientation of input images rotated 0{\deg}, 90{\deg}, 180{\deg}, and 270{\deg}. This task demands robust visual reasoning capabilities to detect rotational cues and contextualize spatial relationships within images, regardless of their orientation. To evaluate MLLMs on these abilities, we introduce RotBench -- a 350-image manually-filtered benchmark comprising lifestyle, portrait, and landscape images. Despite the relatively simple nature of this task, we show that several state-of-the-art open and proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably identify rotation in input images. Providing models with auxiliary information -- including captions, depth maps, and more -- or using chain-of-thought prompting offers only small and inconsistent improvements. Our results indicate that most models are able to reliably identify right-side-up (0{\deg}) images, while certain models are able to identify upside-down (180{\deg}) images. None can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing the image rotated in different orientations leads to moderate performance gains for reasoning models, while a modified setup using voting improves the performance of weaker models. We further show that fine-tuning does not improve models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite substantially improving the identification of 180{\deg} images. Together, these results reveal a significant gap between MLLMs' spatial reasoning capabilities and human perception in identifying rotation.
PDF01August 20, 2025