ChatPaper.aiChatPaper

Het Oog van de Fotograaf: Multimodale Taalmodellen Leren Zien en Beoordelen als Fotografen

The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers

September 23, 2025
Auteurs: Daiqing Qi, Handong Zhao, Jing Shi, Simon Jenni, Yifei Fan, Franck Dernoncourt, Scott Cohen, Sheng Li
cs.AI

Samenvatting

Bij het direct bewerken vanuit het leven hebben fotografen het te moeilijk gevonden om tegelijkertijd zowel het blauw als de lucht te zien. Fotograaf en curator Szarkowski onthulde op inzichtelijke wijze een van de opmerkelijke verschillen tussen algemeen en esthetisch visueel begrip: terwijl het eerste zich richt op het identificeren van het feitelijke element in een beeld (de lucht), gaat het laatste verder dan dergelijke objectidentificatie en ziet het in plaats daarvan een esthetisch component – een zuiver kleurvlak (blauw). Dergelijke fundamentele verschillen tussen algemeen (detectie, lokalisatie, etc.) en esthetisch (kleur, belichting, compositie, etc.) visueel begrip vormen een aanzienlijke uitdaging voor Multimodale Large Language Models (MLLMs). Hoewel sommige recente werken eerste verkenningen hebben gedaan, zijn ze vaak beperkt tot algemeen en basis esthetisch gezond verstand. Als gevolg schieten ze vaak tekort in realistische scenario’s (Fig. 1), die uitgebreide expertise vereisen – inclusief fotografische technieken, kennis van foto voor- en nabewerking, en meer, om een gedetailleerde analyse en beschrijving te kunnen geven. Om het esthetisch begrip van MLLMs fundamenteel te verbeteren, introduceren we eerst een nieuwe dataset, PhotoCritique, afgeleid van uitgebreide discussies onder professionele fotografen en enthousiastelingen, en gekenmerkt door de grote schaal, expertise en diversiteit. Vervolgens stellen we, om visuele esthetiek beter te leren uit PhotoCritique, een nieuw model voor, PhotoEye, dat beschikt over een taalgeleid multi-view visie fusiemechanisme om beeldesthetiek vanuit meerdere perspectieven te begrijpen. Tot slot presenteren we een nieuwe benchmark, PhotoBench, een uitgebreide en professionele benchmark voor esthetisch visueel begrip. Op bestaande benchmarks en PhotoBench toont ons model duidelijke voordelen ten opzichte van bestaande modellen.
English
While editing directly from life, photographers have found it too difficult to see simultaneously both the blue and the sky. Photographer and curator, Szarkowski insightfully revealed one of the notable gaps between general and aesthetic visual understanding: while the former focuses on identifying the factual element in an image (sky), the latter transcends such object identification, viewing it instead as an aesthetic component--a pure color block (blue). Such fundamental distinctions between general (detection, localization, etc.) and aesthetic (color, lighting, composition, etc.) visual understanding present a significant challenge for Multimodal Large Language Models (MLLMs). Although some recent works have made initial explorations, they are often limited to general and basic aesthetic commonsense. As a result, they frequently fall short in real-world scenarios (Fig. 1), which require extensive expertise--including photographic techniques, photo pre/post-processing knowledge, and more, to provide a detailed analysis and description. To fundamentally enhance the aesthetics understanding of MLLMs, we first introduce a novel dataset, PhotoCritique, derived from extensive discussions among professional photographers and enthusiasts, and characterized by the large scale, expertise, and diversity. Then, to better learn visual aesthetics from PhotoCritique, we furthur propose a novel model, PhotoEye, featuring a languageguided multi-view vision fusion mechanism to understand image aesthetics from multiple perspectives. Finally, we present a novel benchmark, PhotoBench, a comprehensive and professional benchmark for aesthetic visual understanding. On existing benchmarks and PhotoBench, our model demonstrates clear advantages over existing models.
PDF21September 30, 2025