ChatPaper.aiChatPaper

RotBench: Avaliação de Modelos de Linguagem Multimodais de Grande Escala na Identificação de Rotação de Imagens

RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation

August 19, 2025
Autores: Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
cs.AI

Resumo

Investigamos até que ponto os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) conseguem identificar com precisão a orientação de imagens de entrada rotacionadas em 0°, 90°, 180° e 270°. Essa tarefa exige capacidades robustas de raciocínio visual para detectar pistas de rotação e contextualizar relações espaciais dentro das imagens, independentemente de sua orientação. Para avaliar os MLLMs nessas habilidades, introduzimos o RotBench — um benchmark de 350 imagens filtradas manualmente, composto por imagens de estilo de vida, retratos e paisagens. Apesar da natureza relativamente simples dessa tarefa, mostramos que vários MLLMs de ponta, tanto abertos quanto proprietários, incluindo GPT-5, o3 e Gemini-2.5-Pro, não identificam de forma confiável a rotação nas imagens de entrada. Fornecer aos modelos informações auxiliares — incluindo legendas, mapas de profundidade e outros — ou usar prompts de cadeia de pensamento oferece apenas melhorias pequenas e inconsistentes. Nossos resultados indicam que a maioria dos modelos consegue identificar de forma confiável imagens na posição correta (0°), enquanto certos modelos conseguem identificar imagens invertidas (180°). Nenhum consegue distinguir de forma confiável entre 90° e 270°. Mostrar simultaneamente a imagem rotacionada em diferentes orientações leva a ganhos moderados de desempenho para modelos de raciocínio, enquanto uma configuração modificada usando votação melhora o desempenho de modelos mais fracos. Mostramos ainda que o ajuste fino não melhora a capacidade dos modelos de distinguir rotações de 90° e 270°, apesar de melhorar substancialmente a identificação de imagens a 180°. Juntos, esses resultados revelam uma lacuna significativa entre as capacidades de raciocínio espacial dos MLLMs e a percepção humana na identificação de rotações.
English
We investigate to what extent Multimodal Large Language Models (MLLMs) can accurately identify the orientation of input images rotated 0{\deg}, 90{\deg}, 180{\deg}, and 270{\deg}. This task demands robust visual reasoning capabilities to detect rotational cues and contextualize spatial relationships within images, regardless of their orientation. To evaluate MLLMs on these abilities, we introduce RotBench -- a 350-image manually-filtered benchmark comprising lifestyle, portrait, and landscape images. Despite the relatively simple nature of this task, we show that several state-of-the-art open and proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably identify rotation in input images. Providing models with auxiliary information -- including captions, depth maps, and more -- or using chain-of-thought prompting offers only small and inconsistent improvements. Our results indicate that most models are able to reliably identify right-side-up (0{\deg}) images, while certain models are able to identify upside-down (180{\deg}) images. None can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing the image rotated in different orientations leads to moderate performance gains for reasoning models, while a modified setup using voting improves the performance of weaker models. We further show that fine-tuning does not improve models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite substantially improving the identification of 180{\deg} images. Together, these results reveal a significant gap between MLLMs' spatial reasoning capabilities and human perception in identifying rotation.
PDF12August 20, 2025