Как сделать запоминающийся снимок? Предоставление пользователям практических рекомендаций

Аннотация

Запоминаемость изображений, то есть вероятность того, что изображение будет запомнено, традиционно изучалась в компьютерном зрении либо как пассивная задача прогнозирования, где модели регрессируют скалярную оценку, либо с помощью генеративных методов, изменяющих визуальный вход для повышения вероятности запоминания изображения. Однако ни одна из этих парадигм не поддерживает пользователей в момент съемки, когда ключевым вопросом является то, как улучшить запоминаемость фотографии. Мы представляем задачу обратной связи по запоминаемости (MemFeed), в рамках которой автоматизированная модель должна предоставлять пользователям действенные, интерпретируемые человеком рекомендации с целью улучшения будущего вспоминания изображения. Также мы представляем MemCoach — первый подход, предназначенный для предоставления конкретных предложений на естественном языке по улучшению запоминаемости (например, «акцентируйте внимание на мимике», «выдвиньте объект на передний план»). Наш метод, основанный на мультимодальных больших языковых моделях (MLLM), не требует обучения и использует стратегию управления «учитель-ученик», выравнивая внутренние активации модели в сторону более запоминающихся паттернов, изученных от учительской модели, продвигающейся от наименее к наиболее запоминающимся образцам. Для обеспечения систематической оценки этой новой задачи мы также представляем MemBench — новый эталонный набор, содержащий последовательно снятые серии фотографий с аннотированными оценками запоминаемости. Наши эксперименты с учетом нескольких MLLM демонстрируют эффективность MemCoach, показывая стабильно улучшенную производительность по сравнению с несколькими zero-shot моделями. Результаты указывают на то, что запоминаемость не только можно предсказывать, но также ей можно обучать и давать инструкции, смещая фокус с простого прогнозирования на предоставление действенной обратной связи для людей-создателей.

English

Image memorability, i.e., how likely an image is to be remembered, has traditionally been studied in computer vision either as a passive prediction task, with models regressing a scalar score, or with generative methods altering the visual input to boost the image likelihood of being remembered. Yet, none of these paradigms supports users at capture time, when the crucial question is how to improve a photo memorability. We introduce the task of Memorability Feedback (MemFeed), where an automated model should provide actionable, human-interpretable guidance to users with the goal to enhance an image future recall. We also present MemCoach, the first approach designed to provide concrete suggestions in natural language for memorability improvement (e.g., "emphasize facial expression," "bring the subject forward"). Our method, based on Multimodal Large Language Models (MLLMs), is training-free and employs a teacher-student steering strategy, aligning the model internal activations toward more memorable patterns learned from a teacher model progressing along least-to-most memorable samples. To enable systematic evaluation on this novel task, we further introduce MemBench, a new benchmark featuring sequence-aligned photoshoots with annotated memorability scores. Our experiments, considering multiple MLLMs, demonstrate the effectiveness of MemCoach, showing consistently improved performance over several zero-shot models. The results indicate that memorability can not only be predicted but also taught and instructed, shifting the focus from mere prediction to actionable feedback for human creators.

Как сделать запоминающийся снимок? Предоставление пользователям практических рекомендаций

How to Take a Memorable Picture? Empowering Users with Actionable Feedback

Аннотация

Support