Comment Prendre une Photo Mémorable ? Donner aux Utilisateurs un Retour Actionnable

Résumé

La mémorabilité des images, c'est-à-dire la probabilité qu'une image soit mémorisée, a traditionnellement été étudiée en vision par ordinateur soit comme une tâche de prédiction passive, où des modèles régressent un score scalaire, soit par des méthodes génératives modifiant l'entrée visuelle pour augmenter la probabilité que l'image soit retenue. Pourtant, aucun de ces paradigmes ne soutient les utilisateurs au moment de la capture, lorsque la question cruciale est de savoir comment améliorer la mémorabilité d'une photo. Nous introduisons la tâche de Retour sur la Mémorabilité (MemFeed), où un modèle automatisé doit fournir des conseils actionnables et interprétables par l'humain dans le but d'améliorer le rappel futur d'une image. Nous présentons également MemCoach, la première approche conçue pour fournir des suggestions concrètes en langage naturel pour l'amélioration de la mémorabilité (par exemple, « mettez l'accent sur l'expression faciale », « rapprochez le sujet »). Notre méthode, basée sur les Modèles de Langage Multimodaux de Grande Taille (MLLM), ne nécessite pas d'entraînement et utilise une stratégie de pilotage de type maître-élève, alignant les activations internes du modèle vers des motifs plus mémorables appris d'un modèle « maître » progressant le long d'échantillons allant du moins au plus mémorable. Pour permettre une évaluation systématique de cette nouvelle tâche, nous introduisons en outre MemBench, un nouveau benchmark comprenant des séries de photos alignées séquentiellement avec des scores de mémorabilité annotés. Nos expériences, considérant plusieurs MLLM, démontrent l'efficacité de MemCoach, montrant une amélioration constante des performances par rapport à plusieurs modèles zero-shot. Les résultats indiquent que la mémorabilité peut non seulement être prédite, mais aussi enseignée et instruite, déplaçant l'accent de la simple prédiction vers un retour actionnable pour les créateurs humains.

English

Image memorability, i.e., how likely an image is to be remembered, has traditionally been studied in computer vision either as a passive prediction task, with models regressing a scalar score, or with generative methods altering the visual input to boost the image likelihood of being remembered. Yet, none of these paradigms supports users at capture time, when the crucial question is how to improve a photo memorability. We introduce the task of Memorability Feedback (MemFeed), where an automated model should provide actionable, human-interpretable guidance to users with the goal to enhance an image future recall. We also present MemCoach, the first approach designed to provide concrete suggestions in natural language for memorability improvement (e.g., "emphasize facial expression," "bring the subject forward"). Our method, based on Multimodal Large Language Models (MLLMs), is training-free and employs a teacher-student steering strategy, aligning the model internal activations toward more memorable patterns learned from a teacher model progressing along least-to-most memorable samples. To enable systematic evaluation on this novel task, we further introduce MemBench, a new benchmark featuring sequence-aligned photoshoots with annotated memorability scores. Our experiments, considering multiple MLLMs, demonstrate the effectiveness of MemCoach, showing consistently improved performance over several zero-shot models. The results indicate that memorability can not only be predicted but also taught and instructed, shifting the focus from mere prediction to actionable feedback for human creators.

Comment Prendre une Photo Mémorable ? Donner aux Utilisateurs un Retour Actionnable

How to Take a Memorable Picture? Empowering Users with Actionable Feedback

Résumé

Support