## Cómo Tomar una Fotografía Memorable: Capacitando a los Usuarios con Retroalimentación Accionable

Resumen

La memorabilidad de las imágenes, es decir, la probabilidad de que una imagen sea recordada, se ha estudiado tradicionalmente en visión por computadora como una tarea de predicción pasiva, donde los modelos regresan una puntuación escalar, o mediante métodos generativos que alteran la entrada visual para aumentar la probabilidad de que la imagen sea recordada. Sin embargo, ninguno de estos paradigmas brinda soporte a los usuarios en el momento de la captura, cuando la pregunta crucial es cómo mejorar la memorabilidad de una foto. Introducimos la tarea de Retroalimentación de Memorabilidad (MemFeed), en la que un modelo automatizado debe proporcionar una guía procesable e interpretable para humanos con el objetivo de mejorar el recuerdo futuro de una imagen. También presentamos MemCoach, el primer enfoque diseñado para ofrecer sugerencias concretas en lenguaje natural para mejorar la memorabilidad (por ejemplo, "enfatizar la expresión facial", "acercar el sujeto principal"). Nuestro método, basado en Modelos de Lenguaje Grandes Multimodales (MLLMs), no requiere entrenamiento y emplea una estrategia de direccionamiento maestro-estudiante, alineando las activaciones internas del modelo hacia patrones más memorables aprendidos de un modelo maestro que progresa a lo largo de muestras ordenadas de menos a más memorables. Para permitir una evaluación sistemática de esta nueva tarea, además presentamos MemBench, un nuevo benchmark que incluye sesiones de fotos secuenciales con puntuaciones de memorabilidad anotadas. Nuestros experimentos, que consideran múltiples MLLMs, demuestran la efectividad de MemCoach, mostrando un rendimiento consistentemente mejorado en comparación con varios modelos de cero-shot. Los resultados indican que la memorabilidad no solo puede predecirse, sino también enseñarse e instruirse, desplazando el enfoque de la mera predicción hacia una retroalimentación procesable para los creadores humanos.

English

Image memorability, i.e., how likely an image is to be remembered, has traditionally been studied in computer vision either as a passive prediction task, with models regressing a scalar score, or with generative methods altering the visual input to boost the image likelihood of being remembered. Yet, none of these paradigms supports users at capture time, when the crucial question is how to improve a photo memorability. We introduce the task of Memorability Feedback (MemFeed), where an automated model should provide actionable, human-interpretable guidance to users with the goal to enhance an image future recall. We also present MemCoach, the first approach designed to provide concrete suggestions in natural language for memorability improvement (e.g., "emphasize facial expression," "bring the subject forward"). Our method, based on Multimodal Large Language Models (MLLMs), is training-free and employs a teacher-student steering strategy, aligning the model internal activations toward more memorable patterns learned from a teacher model progressing along least-to-most memorable samples. To enable systematic evaluation on this novel task, we further introduce MemBench, a new benchmark featuring sequence-aligned photoshoots with annotated memorability scores. Our experiments, considering multiple MLLMs, demonstrate the effectiveness of MemCoach, showing consistently improved performance over several zero-shot models. The results indicate that memorability can not only be predicted but also taught and instructed, shifting the focus from mere prediction to actionable feedback for human creators.

## Cómo Tomar una Fotografía Memorable: Capacitando a los Usuarios con Retroalimentación Accionable

How to Take a Memorable Picture? Empowering Users with Actionable Feedback

Resumen

Support