RotBench: Evaluación de Modelos de Lenguaje Multimodales de Gran Escala en la Identificación de Rotación de Imágenes
RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation
August 19, 2025
Autores: Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Resumen
Investigamos hasta qué punto los Modelos de Lenguaje Multimodales (MLLMs) pueden identificar con precisión la orientación de imágenes de entrada rotadas a 0°, 90°, 180° y 270°. Esta tarea requiere capacidades robustas de razonamiento visual para detectar señales de rotación y contextualizar las relaciones espaciales dentro de las imágenes, independientemente de su orientación. Para evaluar estas habilidades en los MLLMs, presentamos RotBench, un conjunto de referencia de 350 imágenes filtradas manualmente que incluyen imágenes de estilo de vida, retratos y paisajes. A pesar de la naturaleza relativamente simple de esta tarea, demostramos que varios MLLMs de última generación, tanto de código abierto como propietarios, incluyendo GPT-5, o3 y Gemini-2.5-Pro, no identifican de manera confiable la rotación en las imágenes de entrada. Proporcionar a los modelos información auxiliar —como descripciones, mapas de profundidad y más— o utilizar el enfoque de cadena de pensamiento (chain-of-thought) ofrece solo mejoras pequeñas e inconsistentes. Nuestros resultados indican que la mayoría de los modelos pueden identificar de manera confiable imágenes en posición vertical (0°), mientras que ciertos modelos pueden identificar imágenes invertidas (180°). Ninguno puede distinguir de manera confiable entre 90° y 270°. Mostrar simultáneamente la imagen rotada en diferentes orientaciones conduce a mejoras moderadas en el rendimiento de los modelos de razonamiento, mientras que una configuración modificada que utiliza votación mejora el rendimiento de los modelos más débiles. Además, demostramos que el ajuste fino (fine-tuning) no mejora la capacidad de los modelos para distinguir rotaciones de 90° y 270°, a pesar de mejorar sustancialmente la identificación de imágenes rotadas a 180°. En conjunto, estos resultados revelan una brecha significativa entre las capacidades de razonamiento espacial de los MLLMs y la percepción humana en la identificación de rotaciones.
English
We investigate to what extent Multimodal Large Language Models (MLLMs) can
accurately identify the orientation of input images rotated 0{\deg}, 90{\deg},
180{\deg}, and 270{\deg}. This task demands robust visual reasoning
capabilities to detect rotational cues and contextualize spatial relationships
within images, regardless of their orientation. To evaluate MLLMs on these
abilities, we introduce RotBench -- a 350-image manually-filtered benchmark
comprising lifestyle, portrait, and landscape images. Despite the relatively
simple nature of this task, we show that several state-of-the-art open and
proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably
identify rotation in input images. Providing models with auxiliary information
-- including captions, depth maps, and more -- or using chain-of-thought
prompting offers only small and inconsistent improvements. Our results indicate
that most models are able to reliably identify right-side-up (0{\deg}) images,
while certain models are able to identify upside-down (180{\deg}) images. None
can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing
the image rotated in different orientations leads to moderate performance gains
for reasoning models, while a modified setup using voting improves the
performance of weaker models. We further show that fine-tuning does not improve
models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite
substantially improving the identification of 180{\deg} images. Together, these
results reveal a significant gap between MLLMs' spatial reasoning capabilities
and human perception in identifying rotation.