ChatPaper.aiChatPaper

L'occhio del fotografo: Insegnare ai modelli linguistici multimodali di grandi dimensioni a vedere e criticare come i fotografi

The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers

September 23, 2025
Autori: Daiqing Qi, Handong Zhao, Jing Shi, Simon Jenni, Yifei Fan, Franck Dernoncourt, Scott Cohen, Sheng Li
cs.AI

Abstract

Mentre modificano direttamente dalla realtà, i fotografi hanno trovato troppo difficile vedere simultaneamente sia il blu che il cielo. Il fotografo e curatore Szarkowski ha rivelato in modo perspicace uno dei notevoli divari tra la comprensione visiva generale e quella estetica: mentre la prima si concentra sull'identificazione dell'elemento fattuale in un'immagine (il cielo), la seconda trascende tale identificazione oggettuale, considerandola invece come una componente estetica—un blocco di colore puro (il blu). Tali distinzioni fondamentali tra la comprensione visiva generale (rilevamento, localizzazione, ecc.) e quella estetica (colore, illuminazione, composizione, ecc.) rappresentano una sfida significativa per i Modelli Linguistici Multimodali di Grande Scala (MLLMs). Sebbene alcuni lavori recenti abbiano compiuto esplorazioni iniziali, sono spesso limitati a nozioni di base e generali di estetica. Di conseguenza, spesso non riescono a soddisfare le esigenze degli scenari reali (Fig. 1), che richiedono una vasta competenza—tra cui tecniche fotografiche, conoscenze di pre/post-elaborazione delle foto e altro—per fornire un'analisi e una descrizione dettagliate. Per migliorare fondamentalmente la comprensione estetica degli MLLMs, introduciamo innanzitutto un nuovo dataset, PhotoCritique, derivato da ampie discussioni tra fotografi professionisti e appassionati, e caratterizzato da grande scala, competenza e diversità. Successivamente, per apprendere meglio l'estetica visiva da PhotoCritique, proponiamo ulteriormente un nuovo modello, PhotoEye, che presenta un meccanismo di fusione visiva multi-vista guidato dal linguaggio per comprendere l'estetica delle immagini da molteplici prospettive. Infine, presentiamo un nuovo benchmark, PhotoBench, un punto di riferimento completo e professionale per la comprensione estetica visiva. Sui benchmark esistenti e su PhotoBench, il nostro modello dimostra chiari vantaggi rispetto ai modelli attuali.
English
While editing directly from life, photographers have found it too difficult to see simultaneously both the blue and the sky. Photographer and curator, Szarkowski insightfully revealed one of the notable gaps between general and aesthetic visual understanding: while the former focuses on identifying the factual element in an image (sky), the latter transcends such object identification, viewing it instead as an aesthetic component--a pure color block (blue). Such fundamental distinctions between general (detection, localization, etc.) and aesthetic (color, lighting, composition, etc.) visual understanding present a significant challenge for Multimodal Large Language Models (MLLMs). Although some recent works have made initial explorations, they are often limited to general and basic aesthetic commonsense. As a result, they frequently fall short in real-world scenarios (Fig. 1), which require extensive expertise--including photographic techniques, photo pre/post-processing knowledge, and more, to provide a detailed analysis and description. To fundamentally enhance the aesthetics understanding of MLLMs, we first introduce a novel dataset, PhotoCritique, derived from extensive discussions among professional photographers and enthusiasts, and characterized by the large scale, expertise, and diversity. Then, to better learn visual aesthetics from PhotoCritique, we furthur propose a novel model, PhotoEye, featuring a languageguided multi-view vision fusion mechanism to understand image aesthetics from multiple perspectives. Finally, we present a novel benchmark, PhotoBench, a comprehensive and professional benchmark for aesthetic visual understanding. On existing benchmarks and PhotoBench, our model demonstrates clear advantages over existing models.
PDF21September 30, 2025