Das Auge des Fotografen: Multimodale Large Language Models lehren, wie Fotografen zu sehen und zu kritisieren

Zusammenfassung

Beim direkten Bearbeiten von Aufnahmen aus dem Leben haben Fotografen festgestellt, dass es zu schwierig ist, gleichzeitig sowohl das Blau als auch den Himmel zu sehen. Der Fotograf und Kurator Szarkowski hat aufschlussreich eine der bemerkenswerten Lücken zwischen allgemeinem und ästhetischem visuellen Verständnis aufgezeigt: Während sich Ersteres darauf konzentriert, das faktische Element in einem Bild (Himmel) zu identifizieren, geht Letzteres über eine solche Objektidentifikation hinaus und betrachtet es stattdessen als ästhetische Komponente – einen reinen Farbblock (Blau). Solche grundlegenden Unterscheidungen zwischen allgemeinem (Erkennung, Lokalisierung usw.) und ästhetischem (Farbe, Beleuchtung, Komposition usw.) visuellen Verständnis stellen eine erhebliche Herausforderung für Multimodale Große Sprachmodelle (MLLMs) dar. Obwohl einige aktuelle Arbeiten erste Erkundungen unternommen haben, beschränken sie sich oft auf allgemeines und grundlegendes ästhetisches Allgemeinwissen. Infolgedessen reichen sie in realen Szenarien (Abb. 1) häufig nicht aus, die umfangreiches Fachwissen erfordern – einschließlich fotografischer Techniken, Kenntnisse der Bildvor- und -nachbearbeitung und mehr –, um eine detaillierte Analyse und Beschreibung zu liefern. Um das ästhetische Verständnis von MLLMs grundlegend zu verbessern, führen wir zunächst einen neuartigen Datensatz, PhotoCritique, ein, der aus umfangreichen Diskussionen unter professionellen Fotografen und Enthusiasten stammt und sich durch seinen großen Umfang, seine Expertise und Vielfalt auszeichnet. Um dann das visuelle ästhetische Verständnis besser aus PhotoCritique zu erlernen, schlagen wir weiterhin ein neuartiges Modell, PhotoEye, vor, das einen sprachgesteuerten Multi-View-Vision-Fusionsmechanismus zur ästhetischen Bildanalyse aus mehreren Perspektiven nutzt. Schließlich präsentieren wir einen neuartigen Benchmark, PhotoBench, einen umfassenden und professionellen Benchmark für ästhetisches visuelles Verständnis. Auf bestehenden Benchmarks und PhotoBench zeigt unser Modell deutliche Vorteile gegenüber bestehenden Modellen.

English

While editing directly from life, photographers have found it too difficult to see simultaneously both the blue and the sky. Photographer and curator, Szarkowski insightfully revealed one of the notable gaps between general and aesthetic visual understanding: while the former focuses on identifying the factual element in an image (sky), the latter transcends such object identification, viewing it instead as an aesthetic component--a pure color block (blue). Such fundamental distinctions between general (detection, localization, etc.) and aesthetic (color, lighting, composition, etc.) visual understanding present a significant challenge for Multimodal Large Language Models (MLLMs). Although some recent works have made initial explorations, they are often limited to general and basic aesthetic commonsense. As a result, they frequently fall short in real-world scenarios (Fig. 1), which require extensive expertise--including photographic techniques, photo pre/post-processing knowledge, and more, to provide a detailed analysis and description. To fundamentally enhance the aesthetics understanding of MLLMs, we first introduce a novel dataset, PhotoCritique, derived from extensive discussions among professional photographers and enthusiasts, and characterized by the large scale, expertise, and diversity. Then, to better learn visual aesthetics from PhotoCritique, we furthur propose a novel model, PhotoEye, featuring a languageguided multi-view vision fusion mechanism to understand image aesthetics from multiple perspectives. Finally, we present a novel benchmark, PhotoBench, a comprehensive and professional benchmark for aesthetic visual understanding. On existing benchmarks and PhotoBench, our model demonstrates clear advantages over existing models.