Hoe Maak Je Een Onvergetelijke Foto? Gebruikers Voorzien van Toepasbare Feedback

Samenvatting

Beeldherinnerbaarheid, oftewel de waarschijnlijkheid dat een beeld wordt onthouden, is traditioneel in de computer vision bestudeerd als een passieve voorspeltaak, waarbij modellen een scalaire score regresseren, of met generatieve methoden die de visuele input aanpassen om de kans te vergroten dat de afbeelding wordt onthouden. Geen van deze paradigma's ondersteunt echter gebruikers op het moment van opname, wanneer de cruciale vraag is hoe de herinnerbaarheid van een foto kan worden verbeterd. Wij introduceren de taak van Herinnerbaarheidsfeedback (MemFeed), waarbij een geautomatiseerd model bruikbare, door mensen interpreteerbare richtlijnen moet geven aan gebruikers met als doel de toekomstige herinnering van een beeld te verbeteren. Wij presenteren ook MemCoach, de eerste methode die is ontworpen om concrete suggesties in natuurlijke taal te geven voor het verbeteren van de herinnerbaarheid (bijv. "benadruk de gezichtsuitdrukking", "breng het onderwerp meer naar voren"). Onze methode, gebaseerd op Multimodale Large Language Models (MLLM's), is trainingsvrij en gebruikt een teacher-student-stuurstrategie, waarbij de interne activaties van het model worden afgestemd op meer memorabele patronen die zijn geleerd van een teacher-model dat voortschrijdt langs minst tot meest memorabele voorbeelden. Om systematische evaluatie van deze nieuwe taak mogelijk te maken, introduceren we verder MemBench, een nieuwe benchmark met sequentieel uitgelijnde fotosessies met geannoteerde herinnerbaarheidsscores. Onze experimenten, waarbij meerdere MLLM's worden overwogen, tonen de effectiviteit van MemCoach aan en laten een consistent verbeterde prestaties zien ten opzichte van verschillende zero-shot modellen. De resultaten geven aan dat herinnerbaarheid niet alleen voorspeld kan worden, maar ook aangeleerd en geïnstrueerd kan worden, waardoor de focus verschuift van louter voorspelling naar bruikbare feedback voor menselijke makers.

English

Image memorability, i.e., how likely an image is to be remembered, has traditionally been studied in computer vision either as a passive prediction task, with models regressing a scalar score, or with generative methods altering the visual input to boost the image likelihood of being remembered. Yet, none of these paradigms supports users at capture time, when the crucial question is how to improve a photo memorability. We introduce the task of Memorability Feedback (MemFeed), where an automated model should provide actionable, human-interpretable guidance to users with the goal to enhance an image future recall. We also present MemCoach, the first approach designed to provide concrete suggestions in natural language for memorability improvement (e.g., "emphasize facial expression," "bring the subject forward"). Our method, based on Multimodal Large Language Models (MLLMs), is training-free and employs a teacher-student steering strategy, aligning the model internal activations toward more memorable patterns learned from a teacher model progressing along least-to-most memorable samples. To enable systematic evaluation on this novel task, we further introduce MemBench, a new benchmark featuring sequence-aligned photoshoots with annotated memorability scores. Our experiments, considering multiple MLLMs, demonstrate the effectiveness of MemCoach, showing consistently improved performance over several zero-shot models. The results indicate that memorability can not only be predicted but also taught and instructed, shifting the focus from mere prediction to actionable feedback for human creators.

Hoe Maak Je Een Onvergetelijke Foto? Gebruikers Voorzien van Toepasbare Feedback

How to Take a Memorable Picture? Empowering Users with Actionable Feedback

Samenvatting

Support