Глаз фотографа: обучение мультимодальных больших языковых моделей видеть и критиковать как фотографы
The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers
September 23, 2025
Авторы: Daiqing Qi, Handong Zhao, Jing Shi, Simon Jenni, Yifei Fan, Franck Dernoncourt, Scott Cohen, Sheng Li
cs.AI
Аннотация
При непосредственном редактировании снимков, сделанных с натуры, фотографы сталкиваются с трудностью одновременного восприятия и синего цвета, и неба. Фотограф и куратор Сзарковски проницательно выявил один из заметных разрывов между общим и эстетическим визуальным восприятием: если первое сосредоточено на идентификации фактического элемента на изображении (небо), то второе выходит за рамки такой идентификации объектов, рассматривая его скорее как эстетический компонент — чистый цветовой блок (синий). Такие фундаментальные различия между общим (обнаружение, локализация и т.д.) и эстетическим (цвет, освещение, композиция и т.д.) визуальным восприятием представляют собой значительную проблему для мультимодальных больших языковых моделей (MLLMs). Хотя некоторые недавние работы сделали первые шаги в этом направлении, они часто ограничиваются общими и базовыми эстетическими представлениями. В результате они нередко оказываются недостаточно эффективными в реальных сценариях (рис. 1), которые требуют обширных знаний, включая фотографические техники, знания о пред- и постобработке снимков и многое другое, для детального анализа и описания. Чтобы принципиально улучшить понимание эстетики MLLMs, мы сначала представляем новый набор данных, PhotoCritique, созданный на основе обширных обсуждений среди профессиональных фотографов и энтузиастов и характеризующийся масштабом, экспертизой и разнообразием. Затем, чтобы лучше изучить визуальную эстетику на основе PhotoCritique, мы предлагаем новую модель, PhotoEye, которая использует механизм языково-ориентированного мультивзглядного визуального слияния для понимания эстетики изображения с различных точек зрения. Наконец, мы представляем новый эталонный тест, PhotoBench, всеобъемлющий и профессиональный эталон для оценки эстетического визуального понимания. На существующих эталонных тестах и на PhotoBench наша модель демонстрирует явные преимущества по сравнению с существующими моделями.
English
While editing directly from life, photographers have found it too difficult
to see simultaneously both the blue and the sky. Photographer and curator,
Szarkowski insightfully revealed one of the notable gaps between general and
aesthetic visual understanding: while the former focuses on identifying the
factual element in an image (sky), the latter transcends such object
identification, viewing it instead as an aesthetic component--a pure color
block (blue). Such fundamental distinctions between general (detection,
localization, etc.) and aesthetic (color, lighting, composition, etc.) visual
understanding present a significant challenge for Multimodal Large Language
Models (MLLMs). Although some recent works have made initial explorations, they
are often limited to general and basic aesthetic commonsense. As a result, they
frequently fall short in real-world scenarios (Fig. 1), which require extensive
expertise--including photographic techniques, photo pre/post-processing
knowledge, and more, to provide a detailed analysis and description. To
fundamentally enhance the aesthetics understanding of MLLMs, we first introduce
a novel dataset, PhotoCritique, derived from extensive discussions among
professional photographers and enthusiasts, and characterized by the large
scale, expertise, and diversity. Then, to better learn visual aesthetics from
PhotoCritique, we furthur propose a novel model, PhotoEye, featuring a
languageguided multi-view vision fusion mechanism to understand image
aesthetics from multiple perspectives. Finally, we present a novel benchmark,
PhotoBench, a comprehensive and professional benchmark for aesthetic visual
understanding. On existing benchmarks and PhotoBench, our model demonstrates
clear advantages over existing models.