El Ojo del Fotógrafo: Enseñando a los Modelos de Lenguaje Multimodales a Ver y Criticar como Fotógrafos
The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers
September 23, 2025
Autores: Daiqing Qi, Handong Zhao, Jing Shi, Simon Jenni, Yifei Fan, Franck Dernoncourt, Scott Cohen, Sheng Li
cs.AI
Resumen
Al editar directamente desde la vida, los fotógrafos han encontrado demasiado difícil ver simultáneamente tanto el azul como el cielo. El fotógrafo y curador Szarkowski reveló de manera perspicaz una de las brechas notables entre la comprensión visual general y la estética: mientras que la primera se centra en identificar el elemento factual en una imagen (el cielo), la última trasciende dicha identificación de objetos, viéndola en cambio como un componente estético—un bloque de color puro (azul). Estas distinciones fundamentales entre la comprensión visual general (detección, localización, etc.) y la estética (color, iluminación, composición, etc.) presentan un desafío significativo para los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs). Aunque algunos trabajos recientes han realizado exploraciones iniciales, a menudo se limitan a nociones generales y básicas de estética. Como resultado, frecuentemente se quedan cortos en escenarios del mundo real (Fig. 1), que requieren un amplio conocimiento experto—incluyendo técnicas fotográficas, conocimientos de pre/post-procesamiento de fotos, y más, para proporcionar un análisis y descripción detallados. Para mejorar fundamentalmente la comprensión estética de los MLLMs, primero presentamos un nuevo conjunto de datos, PhotoCritique, derivado de extensas discusiones entre fotógrafos profesionales y entusiastas, y caracterizado por su gran escala, expertise y diversidad. Luego, para aprender mejor la estética visual de PhotoCritique, proponemos un nuevo modelo, PhotoEye, que cuenta con un mecanismo de fusión de visión multi-vista guiado por lenguaje para comprender la estética de las imágenes desde múltiples perspectivas. Finalmente, presentamos un nuevo punto de referencia, PhotoBench, un benchmark completo y profesional para la comprensión visual estética. En los benchmarks existentes y en PhotoBench, nuestro modelo demuestra claras ventajas sobre los modelos existentes.
English
While editing directly from life, photographers have found it too difficult
to see simultaneously both the blue and the sky. Photographer and curator,
Szarkowski insightfully revealed one of the notable gaps between general and
aesthetic visual understanding: while the former focuses on identifying the
factual element in an image (sky), the latter transcends such object
identification, viewing it instead as an aesthetic component--a pure color
block (blue). Such fundamental distinctions between general (detection,
localization, etc.) and aesthetic (color, lighting, composition, etc.) visual
understanding present a significant challenge for Multimodal Large Language
Models (MLLMs). Although some recent works have made initial explorations, they
are often limited to general and basic aesthetic commonsense. As a result, they
frequently fall short in real-world scenarios (Fig. 1), which require extensive
expertise--including photographic techniques, photo pre/post-processing
knowledge, and more, to provide a detailed analysis and description. To
fundamentally enhance the aesthetics understanding of MLLMs, we first introduce
a novel dataset, PhotoCritique, derived from extensive discussions among
professional photographers and enthusiasts, and characterized by the large
scale, expertise, and diversity. Then, to better learn visual aesthetics from
PhotoCritique, we furthur propose a novel model, PhotoEye, featuring a
languageguided multi-view vision fusion mechanism to understand image
aesthetics from multiple perspectives. Finally, we present a novel benchmark,
PhotoBench, a comprehensive and professional benchmark for aesthetic visual
understanding. On existing benchmarks and PhotoBench, our model demonstrates
clear advantages over existing models.