Dai Pixel alle Emozioni: Allineare i Modelli Multimodali di Linguaggio con la Percezione Cognitiva Umana delle Immagini
From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
November 27, 2025
Autori: Yiming Chen, Junlin Han, Tianyi Bai, Shengbang Tong, Filippos Kokkinos, Philip Torr
cs.AI
Abstract
Sebbene i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) siano abili nel rispondere a cosa c'è in un'immagine - identificando oggetti e descrivendo scene - spesso mancano della capacità di comprendere come un'immagine viene percepita da un osservatore umano. Questo divario è particolarmente evidente quando si considerano proprietà cognitive soggettive, come ciò che rende un'immagine memorabile, divertente, esteticamente gradevole o emotivamente evocativa. Per affrontare sistematicamente questa sfida, introduciamo CogIP-Bench, un benchmark completo per valutare gli MLLM su tali proprietà cognitive delle immagini. La nostra valutazione rivela un divario significativo: i modelli attuali sono scarsamente allineati con la percezione umana di queste proprietà sfumate. Dimostriamo quindi che una fase di post-addestramento può colmare efficacemente questo divario, migliorando significativamente l'allineamento del modello con i giudizi umani. Inoltre, mostriamo che questo allineamento cognitivo appreso non è meramente predittivo ma anche trasferibile a compiti creativi downstream. Integrando il nostro MLLM cognitivamente allineato in una pipeline di generazione di immagini, possiamo guidare il processo di sintesi per produrre immagini che incarnano meglio tratti desiderati, come essere più memorabili o visivamente accattivanti. Il nostro lavoro fornisce un benchmark per misurare questa percezione simile a quella umana, una pipeline di post-addestramento per migliorarla e una dimostrazione che tale allineamento abilita un'IA più incentrata sull'umano.
English
While Multimodal Large Language Models (MLLMs) are adept at answering what is in an image-identifying objects and describing scenes-they often lack the ability to understand how an image feels to a human observer. This gap is most evident when considering subjective cognitive properties, such as what makes an image memorable, funny, aesthetically pleasing, or emotionally evocative. To systematically address this challenge, we introduce CogIP-Bench, a comprehensive benchmark for evaluating MLLMs on such image cognitive properties. Our evaluation reveals a significant gap: current models are poorly aligned with human perception of these nuanced properties. We then demonstrate that a post-training phase can effectively bridge this gap, significantly enhancing the model's alignment with human judgments. Furthermore, we show that this learned cognitive alignment is not merely predictive but also transferable to downstream creative tasks. By integrating our cognitively-aligned MLLM into an image generation pipeline, we can guide the synthesis process to produce images that better embody desired traits, such as being more memorable or visually appealing. Our work provides a benchmark to measure this human-like perception, a post-training pipeline to enhance it, and a demonstration that this alignment unlocks more human-centric AI.