Como Tirar uma Foto Memorável: Capacitando Usuários com Feedback Acionável

Resumo

A memorabilidade de imagens, ou seja, a probabilidade de uma imagem ser lembrada, tem sido tradicionalmente estudada na visão computacional como uma tarefa de previsão passiva, com modelos regredindo uma pontuação escalar, ou com métodos generativos que alteram a entrada visual para aumentar a probabilidade da imagem ser lembrada. No entanto, nenhum desses paradigmas apoia os utilizadores no momento da captura, quando a questão crucial é como melhorar a memorabilidade de uma fotografia. Introduzimos a tarefa de *Feedback de Memorabilidade* (MemFeed), na qual um modelo automatizado deve fornecer orientação acionável e interpretável por humanos aos utilizadores com o objetivo de melhorar a recordação futura da imagem. Apresentamos também o MemCoach, a primeira abordagem concebida para fornecer sugestões concretas em linguagem natural para a melhoria da memorabilidade (por exemplo, "enfatize a expressão facial", "traga o assunto para a frente"). O nosso método, baseado em *Modelos de Linguagem de Grande Escala Multimodais* (MLLMs), não requer treino e emprega uma estratégia de orientação do tipo professor-aluno, alinhando as ativações internas do modelo para padrões mais memoráveis aprendidos a partir de um modelo professor que progride ao longo de amostras ordenadas da menos para a mais memorável. Para permitir uma avaliação sistemática desta nova tarefa, introduzimos ainda o MemBench, um novo benchmark que apresenta sessões fotográficas com sequências alinhadas e pontuações de memorabilidade anotadas. As nossas experiências, considerando múltiplos MLLMs, demonstram a eficácia do MemCoach, mostrando um desempenho consistentemente melhorado em relação a vários modelos *zero-shot*. Os resultados indicam que a memorabilidade pode não só ser prevista, mas também ensinada e instruída, deslocando o foco da mera previsão para um *feedback* acionável para criadores humanos.

English

Image memorability, i.e., how likely an image is to be remembered, has traditionally been studied in computer vision either as a passive prediction task, with models regressing a scalar score, or with generative methods altering the visual input to boost the image likelihood of being remembered. Yet, none of these paradigms supports users at capture time, when the crucial question is how to improve a photo memorability. We introduce the task of Memorability Feedback (MemFeed), where an automated model should provide actionable, human-interpretable guidance to users with the goal to enhance an image future recall. We also present MemCoach, the first approach designed to provide concrete suggestions in natural language for memorability improvement (e.g., "emphasize facial expression," "bring the subject forward"). Our method, based on Multimodal Large Language Models (MLLMs), is training-free and employs a teacher-student steering strategy, aligning the model internal activations toward more memorable patterns learned from a teacher model progressing along least-to-most memorable samples. To enable systematic evaluation on this novel task, we further introduce MemBench, a new benchmark featuring sequence-aligned photoshoots with annotated memorability scores. Our experiments, considering multiple MLLMs, demonstrate the effectiveness of MemCoach, showing consistently improved performance over several zero-shot models. The results indicate that memorability can not only be predicted but also taught and instructed, shifting the focus from mere prediction to actionable feedback for human creators.

Como Tirar uma Foto Memorável: Capacitando Usuários com Feedback Acionável

How to Take a Memorable Picture? Empowering Users with Actionable Feedback

Resumo

Support