L'Œil du Photographe : Enseigner aux Modèles de Langage Multimodaux à Voir et à Critiquer comme des Photographes
The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers
September 23, 2025
papers.authors: Daiqing Qi, Handong Zhao, Jing Shi, Simon Jenni, Yifei Fan, Franck Dernoncourt, Scott Cohen, Sheng Li
cs.AI
papers.abstract
Lors de l'édition directe à partir de la réalité, les photographes ont trouvé trop difficile de percevoir simultanément à la fois le bleu et le ciel. Le photographe et conservateur Szarkowski a révélé de manière perspicace l'un des écarts notables entre la compréhension visuelle générale et esthétique : tandis que la première se concentre sur l'identification de l'élément factuel dans une image (le ciel), la seconde transcende une telle identification d'objet, la considérant plutôt comme un composant esthétique – un bloc de couleur pure (le bleu). Ces distinctions fondamentales entre la compréhension visuelle générale (détection, localisation, etc.) et esthétique (couleur, éclairage, composition, etc.) représentent un défi majeur pour les Modèles de Langage Multimodaux à Grande Échelle (MLLMs). Bien que certains travaux récents aient effectué des explorations initiales, ils se limitent souvent à des notions générales et basiques de sens esthétique. Par conséquent, ils échouent fréquemment dans des scénarios réels (Fig. 1), qui nécessitent une expertise approfondie – incluant des techniques photographiques, des connaissances en pré/post-traitement de photos, et plus encore – pour fournir une analyse et une description détaillées. Pour améliorer fondamentalement la compréhension esthétique des MLLMs, nous introduisons d'abord un nouveau jeu de données, PhotoCritique, dérivé de discussions approfondies entre photographes professionnels et amateurs, et caractérisé par son ampleur, son expertise et sa diversité. Ensuite, pour mieux apprendre l'esthétique visuelle à partir de PhotoCritique, nous proposons en outre un nouveau modèle, PhotoEye, doté d'un mécanisme de fusion de vision multi-vues guidé par le langage pour comprendre l'esthétique des images sous plusieurs perspectives. Enfin, nous présentons un nouveau benchmark, PhotoBench, un benchmark complet et professionnel pour la compréhension esthétique visuelle. Sur les benchmarks existants et sur PhotoBench, notre modèle démontre des avantages clairs par rapport aux modèles existants.
English
While editing directly from life, photographers have found it too difficult
to see simultaneously both the blue and the sky. Photographer and curator,
Szarkowski insightfully revealed one of the notable gaps between general and
aesthetic visual understanding: while the former focuses on identifying the
factual element in an image (sky), the latter transcends such object
identification, viewing it instead as an aesthetic component--a pure color
block (blue). Such fundamental distinctions between general (detection,
localization, etc.) and aesthetic (color, lighting, composition, etc.) visual
understanding present a significant challenge for Multimodal Large Language
Models (MLLMs). Although some recent works have made initial explorations, they
are often limited to general and basic aesthetic commonsense. As a result, they
frequently fall short in real-world scenarios (Fig. 1), which require extensive
expertise--including photographic techniques, photo pre/post-processing
knowledge, and more, to provide a detailed analysis and description. To
fundamentally enhance the aesthetics understanding of MLLMs, we first introduce
a novel dataset, PhotoCritique, derived from extensive discussions among
professional photographers and enthusiasts, and characterized by the large
scale, expertise, and diversity. Then, to better learn visual aesthetics from
PhotoCritique, we furthur propose a novel model, PhotoEye, featuring a
languageguided multi-view vision fusion mechanism to understand image
aesthetics from multiple perspectives. Finally, we present a novel benchmark,
PhotoBench, a comprehensive and professional benchmark for aesthetic visual
understanding. On existing benchmarks and PhotoBench, our model demonstrates
clear advantages over existing models.