Come Scattare una Foto Memorabile? Fornire agli Utenti Feedback Azionabili

Abstract

La memorabilità delle immagini, ovvero la probabilità che un'immagine venga ricordata, è stata tradizionalmente studiata nell'ambito della computer vision come un compito di predizione passiva, con modelli che stimano un punteggio scalare, o con metodi generativi che alterano l'input visivo per aumentare la probabilità che l'immagine venga ricordata. Tuttavia, nessuno di questi paradigmi supporta gli utenti al momento dello scatto, quando la domanda cruciale è come migliorare la memorabilità di una foto. Introduciamo il compito del Feedback di Memorabilità (MemFeed), in cui un modello automatizzato dovrebbe fornire una guida azionabile e interpretabile dall'utente con l'obiettivo di migliorare il futuro ricordo di un'immagine. Presentiamo inoltre MemCoach, il primo approccio progettato per fornire suggerimenti concreti in linguaggio naturale per il miglioramento della memorabilità (ad esempio, "enfatizza l'espressione facciale", "avvicina il soggetto in primo piano"). Il nostro metodo, basato su Modelli Linguistici Multimodali di Grande Dimensioni (MLLM), non richiede addestramento e impiega una strategia di orientamento teacher-student, allineando le attivazioni interne del modello verso pattern più memorabili appresi da un modello insegnante che progredisce lungo campioni ordinati da meno a più memorabili. Per consentire una valutazione sistematica di questo nuovo compito, introduciamo inoltre MemBench, un nuovo benchmark che presenta sessioni fotografiche con sequenze allineate e punteggi di memorabilità annotati. I nostri esperimenti, condotti su molteplici MLLM, dimostrano l'efficacia di MemCoach, mostrando un miglioramento delle prestazioni in modo consistente rispetto a diversi modelli zero-shot. I risultati indicano che la memorabilità non può solo essere predetta, ma anche insegnata e istruita, spostando il focus dalla mera predizione a un feedback azionabile per i creatori umani.

English

Image memorability, i.e., how likely an image is to be remembered, has traditionally been studied in computer vision either as a passive prediction task, with models regressing a scalar score, or with generative methods altering the visual input to boost the image likelihood of being remembered. Yet, none of these paradigms supports users at capture time, when the crucial question is how to improve a photo memorability. We introduce the task of Memorability Feedback (MemFeed), where an automated model should provide actionable, human-interpretable guidance to users with the goal to enhance an image future recall. We also present MemCoach, the first approach designed to provide concrete suggestions in natural language for memorability improvement (e.g., "emphasize facial expression," "bring the subject forward"). Our method, based on Multimodal Large Language Models (MLLMs), is training-free and employs a teacher-student steering strategy, aligning the model internal activations toward more memorable patterns learned from a teacher model progressing along least-to-most memorable samples. To enable systematic evaluation on this novel task, we further introduce MemBench, a new benchmark featuring sequence-aligned photoshoots with annotated memorability scores. Our experiments, considering multiple MLLMs, demonstrate the effectiveness of MemCoach, showing consistently improved performance over several zero-shot models. The results indicate that memorability can not only be predicted but also taught and instructed, shifting the focus from mere prediction to actionable feedback for human creators.

Come Scattare una Foto Memorabile? Fornire agli Utenti Feedback Azionabili

How to Take a Memorable Picture? Empowering Users with Actionable Feedback

Abstract

Support