O Olho do Fotógrafo: Ensinando Modelos de Linguagem Multimodais de Grande Escala a Ver e Criticar como Fotógrafos
The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers
September 23, 2025
Autores: Daiqing Qi, Handong Zhao, Jing Shi, Simon Jenni, Yifei Fan, Franck Dernoncourt, Scott Cohen, Sheng Li
cs.AI
Resumo
Ao editar diretamente a partir da vida, os fotógrafos descobriram que é muito difícil ver simultaneamente tanto o azul quanto o céu. O fotógrafo e curador Szarkowski revelou de forma perspicaz uma das lacunas notáveis entre o entendimento visual geral e o estético: enquanto o primeiro se concentra em identificar o elemento factual em uma imagem (o céu), o último transcende essa identificação de objeto, vendo-o, em vez disso, como um componente estético—um bloco de cor pura (azul). Tais distinções fundamentais entre o entendimento visual geral (detecção, localização, etc.) e o estético (cor, iluminação, composição, etc.) apresentam um desafio significativo para os Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Embora alguns trabalhos recentes tenham feito explorações iniciais, eles frequentemente se limitam ao senso comum estético geral e básico. Como resultado, eles frequentemente falham em cenários do mundo real (Fig. 1), que exigem ampla expertise—incluindo técnicas fotográficas, conhecimento de pré/pós-processamento de fotos e mais—para fornecer uma análise e descrição detalhadas. Para aprimorar fundamentalmente o entendimento estético dos MLLMs, primeiro introduzimos um novo conjunto de dados, o PhotoCritique, derivado de extensas discussões entre fotógrafos profissionais e entusiastas, e caracterizado pela grande escala, expertise e diversidade. Em seguida, para aprender melhor a estética visual a partir do PhotoCritique, propomos ainda um novo modelo, o PhotoEye, que apresenta um mecanismo de fusão de visão multi-visão guiada por linguagem para entender a estética da imagem a partir de múltiplas perspectivas. Finalmente, apresentamos um novo benchmark, o PhotoBench, um benchmark abrangente e profissional para o entendimento visual estético. Nos benchmarks existentes e no PhotoBench, nosso modelo demonstra vantagens claras sobre os modelos existentes.
English
While editing directly from life, photographers have found it too difficult
to see simultaneously both the blue and the sky. Photographer and curator,
Szarkowski insightfully revealed one of the notable gaps between general and
aesthetic visual understanding: while the former focuses on identifying the
factual element in an image (sky), the latter transcends such object
identification, viewing it instead as an aesthetic component--a pure color
block (blue). Such fundamental distinctions between general (detection,
localization, etc.) and aesthetic (color, lighting, composition, etc.) visual
understanding present a significant challenge for Multimodal Large Language
Models (MLLMs). Although some recent works have made initial explorations, they
are often limited to general and basic aesthetic commonsense. As a result, they
frequently fall short in real-world scenarios (Fig. 1), which require extensive
expertise--including photographic techniques, photo pre/post-processing
knowledge, and more, to provide a detailed analysis and description. To
fundamentally enhance the aesthetics understanding of MLLMs, we first introduce
a novel dataset, PhotoCritique, derived from extensive discussions among
professional photographers and enthusiasts, and characterized by the large
scale, expertise, and diversity. Then, to better learn visual aesthetics from
PhotoCritique, we furthur propose a novel model, PhotoEye, featuring a
languageguided multi-view vision fusion mechanism to understand image
aesthetics from multiple perspectives. Finally, we present a novel benchmark,
PhotoBench, a comprehensive and professional benchmark for aesthetic visual
understanding. On existing benchmarks and PhotoBench, our model demonstrates
clear advantages over existing models.