Das Auge des Fotografen: Multimodale Large Language Models lehren, wie Fotografen zu sehen und zu kritisieren
The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers
September 23, 2025
papers.authors: Daiqing Qi, Handong Zhao, Jing Shi, Simon Jenni, Yifei Fan, Franck Dernoncourt, Scott Cohen, Sheng Li
cs.AI
papers.abstract
Beim direkten Bearbeiten von Aufnahmen aus dem Leben haben Fotografen festgestellt, dass es zu schwierig ist, gleichzeitig sowohl das Blau als auch den Himmel zu sehen. Der Fotograf und Kurator Szarkowski hat aufschlussreich eine der bemerkenswerten Lücken zwischen allgemeinem und ästhetischem visuellen Verständnis aufgezeigt: Während sich Ersteres darauf konzentriert, das faktische Element in einem Bild (Himmel) zu identifizieren, geht Letzteres über eine solche Objektidentifikation hinaus und betrachtet es stattdessen als ästhetische Komponente – einen reinen Farbblock (Blau). Solche grundlegenden Unterscheidungen zwischen allgemeinem (Erkennung, Lokalisierung usw.) und ästhetischem (Farbe, Beleuchtung, Komposition usw.) visuellen Verständnis stellen eine erhebliche Herausforderung für Multimodale Große Sprachmodelle (MLLMs) dar. Obwohl einige aktuelle Arbeiten erste Erkundungen unternommen haben, beschränken sie sich oft auf allgemeines und grundlegendes ästhetisches Allgemeinwissen. Infolgedessen reichen sie in realen Szenarien (Abb. 1) häufig nicht aus, die umfangreiches Fachwissen erfordern – einschließlich fotografischer Techniken, Kenntnisse der Bildvor- und -nachbearbeitung und mehr –, um eine detaillierte Analyse und Beschreibung zu liefern. Um das ästhetische Verständnis von MLLMs grundlegend zu verbessern, führen wir zunächst einen neuartigen Datensatz, PhotoCritique, ein, der aus umfangreichen Diskussionen unter professionellen Fotografen und Enthusiasten stammt und sich durch seinen großen Umfang, seine Expertise und Vielfalt auszeichnet. Um dann das visuelle ästhetische Verständnis besser aus PhotoCritique zu erlernen, schlagen wir weiterhin ein neuartiges Modell, PhotoEye, vor, das einen sprachgesteuerten Multi-View-Vision-Fusionsmechanismus zur ästhetischen Bildanalyse aus mehreren Perspektiven nutzt. Schließlich präsentieren wir einen neuartigen Benchmark, PhotoBench, einen umfassenden und professionellen Benchmark für ästhetisches visuelles Verständnis. Auf bestehenden Benchmarks und PhotoBench zeigt unser Modell deutliche Vorteile gegenüber bestehenden Modellen.
English
While editing directly from life, photographers have found it too difficult
to see simultaneously both the blue and the sky. Photographer and curator,
Szarkowski insightfully revealed one of the notable gaps between general and
aesthetic visual understanding: while the former focuses on identifying the
factual element in an image (sky), the latter transcends such object
identification, viewing it instead as an aesthetic component--a pure color
block (blue). Such fundamental distinctions between general (detection,
localization, etc.) and aesthetic (color, lighting, composition, etc.) visual
understanding present a significant challenge for Multimodal Large Language
Models (MLLMs). Although some recent works have made initial explorations, they
are often limited to general and basic aesthetic commonsense. As a result, they
frequently fall short in real-world scenarios (Fig. 1), which require extensive
expertise--including photographic techniques, photo pre/post-processing
knowledge, and more, to provide a detailed analysis and description. To
fundamentally enhance the aesthetics understanding of MLLMs, we first introduce
a novel dataset, PhotoCritique, derived from extensive discussions among
professional photographers and enthusiasts, and characterized by the large
scale, expertise, and diversity. Then, to better learn visual aesthetics from
PhotoCritique, we furthur propose a novel model, PhotoEye, featuring a
languageguided multi-view vision fusion mechanism to understand image
aesthetics from multiple perspectives. Finally, we present a novel benchmark,
PhotoBench, a comprehensive and professional benchmark for aesthetic visual
understanding. On existing benchmarks and PhotoBench, our model demonstrates
clear advantages over existing models.