Von Pixeln zu Gefühlen: Abgleich von MLLMs mit der menschlichen kognitiven Bildwahrnehmung
From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
November 27, 2025
papers.authors: Yiming Chen, Junlin Han, Tianyi Bai, Shengbang Tong, Filippos Kokkinos, Philip Torr
cs.AI
papers.abstract
Während multimodale große Sprachmodelle (MLLMs) gut darin sind, Fragen dazu zu beantworten, *was* auf einem Bild zu sehen ist – also Objekte zu identifizieren und Szenen zu beschreiben – fehlt ihnen oft die Fähigkeit zu verstehen, *wie* sich ein Bild für einen menschlichen Betrachter anfühlt. Diese Lücke wird besonders deutlich bei der Betrachtung subjektiver kognitiver Eigenschaften, wie etwa dessen, was ein Bild einprägsam, lustig, ästhetisch ansprechend oder emotional eindrücklich macht. Um diese Herausforderung systematisch anzugehen, führen wir CogIP-Bench ein, einen umfassenden Benchmark zur Bewertung von MLLMs hinsichtlich solcher kognitiver Bildeigenschaften. Unsere Auswertung zeigt eine erhebliche Diskrepanz: Aktuelle Modelle sind nur schlecht mit der menschlichen Wahrnehmung dieser nuancenreichen Eigenschaften in Einklang gebracht. Wir zeigen anschließend, dass eine Nachtrainingsphase diese Lücke wirksam schließen und die Übereinstimmung des Modells mit menschlichen Bewertungen signifikant verbessern kann. Des Weiteren belegen wir, dass diese erlernte kognitive Ausrichtung nicht nur prädiktiv, sondern auch auf nachgelagerte kreative Aufgaben übertragbar ist. Durch die Integration unseres kognitiv ausgerichteten MLLMs in eine Bildgenerierungspipeline können wir den Syntheseprozess so steuern, dass Bilder erzeugt werden, die gewünschte Eigenschaften wie eine höhere Einprägsamkeit oder visuelle Anziehungskraft besser verkörpern. Unsere Arbeit liefert einen Benchmark zur Messung dieser menschenähnlichen Wahrnehmung, eine Nachtrainings-Pipeline zu ihrer Verbesserung und einen Nachweis, dass diese Ausrichtung eine stärker menschenzentrierte KI ermöglicht.
English
While Multimodal Large Language Models (MLLMs) are adept at answering what is in an image-identifying objects and describing scenes-they often lack the ability to understand how an image feels to a human observer. This gap is most evident when considering subjective cognitive properties, such as what makes an image memorable, funny, aesthetically pleasing, or emotionally evocative. To systematically address this challenge, we introduce CogIP-Bench, a comprehensive benchmark for evaluating MLLMs on such image cognitive properties. Our evaluation reveals a significant gap: current models are poorly aligned with human perception of these nuanced properties. We then demonstrate that a post-training phase can effectively bridge this gap, significantly enhancing the model's alignment with human judgments. Furthermore, we show that this learned cognitive alignment is not merely predictive but also transferable to downstream creative tasks. By integrating our cognitively-aligned MLLM into an image generation pipeline, we can guide the synthesis process to produce images that better embody desired traits, such as being more memorable or visually appealing. Our work provides a benchmark to measure this human-like perception, a post-training pipeline to enhance it, and a demonstration that this alignment unlocks more human-centric AI.