Wie man ein unvergessliches Foto macht: Nutzer mit umsetzbarem Feedback befähigen

Zusammenfassung

Bildmemorabilität, also wie wahrscheinlich ein Bild im Gedächtnis bleibt, wurde in der Computer Vision traditionell entweder als passive Vorhersageaufgabe untersucht, bei der Modelle einen skalaren Score regressieren, oder mit generativen Methoden, die den visuellen Input verändern, um die Wahrscheinlichkeit des Behaltens zu erhöhen. Keines dieser Paradigmen unterstützt jedoch Nutzer zum Aufnahmezeitpunkt, wenn die entscheidende Frage ist, wie die Memorabilität eines Fotos verbessert werden kann. Wir führen die Aufgabe des Memorability-Feedbacks (MemFeed) ein, bei der ein automatisiertes Modell handlungsorientierte, für Menschen interpretierbare Anleitungen liefern soll, mit dem Ziel, die spätere Erinnerung an ein Bild zu steigern. Wir stellen zudem MemCoach vor, den ersten Ansatz, der konkrete Verbesserungsvorschläge in natürlicher Sprache zur Steigerung der Memorabilität liefert (z.B. "Betonen Sie den Gesichtsausdruck", "Platzieren Sie das Motiv weiter vorne"). Unsere Methode, die auf Multimodalen Großsprachmodellen (MLLMs) basiert, kommt ohne Training aus und nutzt eine Teacher-Student-Steuerungsstrategie, bei der die internen Aktivierungen des Modells hin zu merkfähigeren Mustern ausgerichtet werden, die von einem Teacher-Modell gelernt wurden, das sich entlang einer Progression von weniger zu mehr memorablen Beispielen bewegt. Um eine systematische Evaluation dieser neuartigen Aufgabe zu ermöglichen, führen wir außerdem MemBench ein, einen neuen Benchmark mit sequenziell ausgerichteten Fotoserien und annotierten Memorabilitäts-Scores. Unsere Experimente, die mehrere MLLMs berücksichtigen, demonstrieren die Wirksamkeit von MemCoach und zeigen eine konsistent verbesserte Leistung gegenüber mehreren Zero-Shot-Modellen. Die Ergebnisse deuten darauf hin, dass Memorabilität nicht nur vorhergesagt, sondern auch vermittelt und angeleitet werden kann, was den Fokus von der bloßen Vorhersage auf handlungsorientiertes Feedback für menschliche Gestalter verschiebt.

English

Image memorability, i.e., how likely an image is to be remembered, has traditionally been studied in computer vision either as a passive prediction task, with models regressing a scalar score, or with generative methods altering the visual input to boost the image likelihood of being remembered. Yet, none of these paradigms supports users at capture time, when the crucial question is how to improve a photo memorability. We introduce the task of Memorability Feedback (MemFeed), where an automated model should provide actionable, human-interpretable guidance to users with the goal to enhance an image future recall. We also present MemCoach, the first approach designed to provide concrete suggestions in natural language for memorability improvement (e.g., "emphasize facial expression," "bring the subject forward"). Our method, based on Multimodal Large Language Models (MLLMs), is training-free and employs a teacher-student steering strategy, aligning the model internal activations toward more memorable patterns learned from a teacher model progressing along least-to-most memorable samples. To enable systematic evaluation on this novel task, we further introduce MemBench, a new benchmark featuring sequence-aligned photoshoots with annotated memorability scores. Our experiments, considering multiple MLLMs, demonstrate the effectiveness of MemCoach, showing consistently improved performance over several zero-shot models. The results indicate that memorability can not only be predicted but also taught and instructed, shifting the focus from mere prediction to actionable feedback for human creators.

Wie man ein unvergessliches Foto macht: Nutzer mit umsetzbarem Feedback befähigen

How to Take a Memorable Picture? Empowering Users with Actionable Feedback

Zusammenfassung

Support