RotBench: Avaliação de Modelos de Linguagem Multimodais de Grande Escala na Identificação de Rotação de Imagens

Resumo

Investigamos até que ponto os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) conseguem identificar com precisão a orientação de imagens de entrada rotacionadas em 0°, 90°, 180° e 270°. Essa tarefa exige capacidades robustas de raciocínio visual para detectar pistas de rotação e contextualizar relações espaciais dentro das imagens, independentemente de sua orientação. Para avaliar os MLLMs nessas habilidades, introduzimos o RotBench — um benchmark de 350 imagens filtradas manualmente, composto por imagens de estilo de vida, retratos e paisagens. Apesar da natureza relativamente simples dessa tarefa, mostramos que vários MLLMs de ponta, tanto abertos quanto proprietários, incluindo GPT-5, o3 e Gemini-2.5-Pro, não identificam de forma confiável a rotação nas imagens de entrada. Fornecer aos modelos informações auxiliares — incluindo legendas, mapas de profundidade e outros — ou usar prompts de cadeia de pensamento oferece apenas melhorias pequenas e inconsistentes. Nossos resultados indicam que a maioria dos modelos consegue identificar de forma confiável imagens na posição correta (0°), enquanto certos modelos conseguem identificar imagens invertidas (180°). Nenhum consegue distinguir de forma confiável entre 90° e 270°. Mostrar simultaneamente a imagem rotacionada em diferentes orientações leva a ganhos moderados de desempenho para modelos de raciocínio, enquanto uma configuração modificada usando votação melhora o desempenho de modelos mais fracos. Mostramos ainda que o ajuste fino não melhora a capacidade dos modelos de distinguir rotações de 90° e 270°, apesar de melhorar substancialmente a identificação de imagens a 180°. Juntos, esses resultados revelam uma lacuna significativa entre as capacidades de raciocínio espacial dos MLLMs e a percepção humana na identificação de rotações.

English

We investigate to what extent Multimodal Large Language Models (MLLMs) can accurately identify the orientation of input images rotated 0{\deg}, 90{\deg}, 180{\deg}, and 270{\deg}. This task demands robust visual reasoning capabilities to detect rotational cues and contextualize spatial relationships within images, regardless of their orientation. To evaluate MLLMs on these abilities, we introduce RotBench -- a 350-image manually-filtered benchmark comprising lifestyle, portrait, and landscape images. Despite the relatively simple nature of this task, we show that several state-of-the-art open and proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably identify rotation in input images. Providing models with auxiliary information -- including captions, depth maps, and more -- or using chain-of-thought prompting offers only small and inconsistent improvements. Our results indicate that most models are able to reliably identify right-side-up (0{\deg}) images, while certain models are able to identify upside-down (180{\deg}) images. None can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing the image rotated in different orientations leads to moderate performance gains for reasoning models, while a modified setup using voting improves the performance of weaker models. We further show that fine-tuning does not improve models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite substantially improving the identification of 180{\deg} images. Together, these results reveal a significant gap between MLLMs' spatial reasoning capabilities and human perception in identifying rotation.

RotBench: Avaliação de Modelos de Linguagem Multimodais de Grande Escala na Identificação de Rotação de Imagens

RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation

Resumo

Support