RotBench: Avaliação de Modelos de Linguagem Multimodais de Grande Escala na Identificação de Rotação de Imagens
RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation
August 19, 2025
Autores: Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Resumo
Investigamos até que ponto os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) conseguem identificar com precisão a orientação de imagens de entrada rotacionadas em 0°, 90°, 180° e 270°. Essa tarefa exige capacidades robustas de raciocínio visual para detectar pistas de rotação e contextualizar relações espaciais dentro das imagens, independentemente de sua orientação. Para avaliar os MLLMs nessas habilidades, introduzimos o RotBench — um benchmark de 350 imagens filtradas manualmente, composto por imagens de estilo de vida, retratos e paisagens. Apesar da natureza relativamente simples dessa tarefa, mostramos que vários MLLMs de ponta, tanto abertos quanto proprietários, incluindo GPT-5, o3 e Gemini-2.5-Pro, não identificam de forma confiável a rotação nas imagens de entrada. Fornecer aos modelos informações auxiliares — incluindo legendas, mapas de profundidade e outros — ou usar prompts de cadeia de pensamento oferece apenas melhorias pequenas e inconsistentes. Nossos resultados indicam que a maioria dos modelos consegue identificar de forma confiável imagens na posição correta (0°), enquanto certos modelos conseguem identificar imagens invertidas (180°). Nenhum consegue distinguir de forma confiável entre 90° e 270°. Mostrar simultaneamente a imagem rotacionada em diferentes orientações leva a ganhos moderados de desempenho para modelos de raciocínio, enquanto uma configuração modificada usando votação melhora o desempenho de modelos mais fracos. Mostramos ainda que o ajuste fino não melhora a capacidade dos modelos de distinguir rotações de 90° e 270°, apesar de melhorar substancialmente a identificação de imagens a 180°. Juntos, esses resultados revelam uma lacuna significativa entre as capacidades de raciocínio espacial dos MLLMs e a percepção humana na identificação de rotações.
English
We investigate to what extent Multimodal Large Language Models (MLLMs) can
accurately identify the orientation of input images rotated 0{\deg}, 90{\deg},
180{\deg}, and 270{\deg}. This task demands robust visual reasoning
capabilities to detect rotational cues and contextualize spatial relationships
within images, regardless of their orientation. To evaluate MLLMs on these
abilities, we introduce RotBench -- a 350-image manually-filtered benchmark
comprising lifestyle, portrait, and landscape images. Despite the relatively
simple nature of this task, we show that several state-of-the-art open and
proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably
identify rotation in input images. Providing models with auxiliary information
-- including captions, depth maps, and more -- or using chain-of-thought
prompting offers only small and inconsistent improvements. Our results indicate
that most models are able to reliably identify right-side-up (0{\deg}) images,
while certain models are able to identify upside-down (180{\deg}) images. None
can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing
the image rotated in different orientations leads to moderate performance gains
for reasoning models, while a modified setup using voting improves the
performance of weaker models. We further show that fine-tuning does not improve
models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite
substantially improving the identification of 180{\deg} images. Together, these
results reveal a significant gap between MLLMs' spatial reasoning capabilities
and human perception in identifying rotation.