Do Pixels aos Sentimentos: Alinhando MLLMs com a Percepção Cognitiva Humana de Imagens
From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
November 27, 2025
Autores: Yiming Chen, Junlin Han, Tianyi Bai, Shengbang Tong, Filippos Kokkinos, Philip Torr
cs.AI
Resumo
Embora os Modelos de Linguagem Multimodais (MLLMs) sejam habilidosos em responder ao que está em uma imagem – identificando objetos e descrevendo cenas –, eles frequentemente carecem da capacidade de entender como uma imagem é percebida por um observador humano. Essa lacuna é mais evidente ao considerar propriedades cognitivas subjetivas, como o que torna uma imagem memorável, engraçada, esteticamente agradável ou emocionalmente evocativa. Para abordar esse desafio sistematicamente, introduzimos o CogIP-Bench, um benchmark abrangente para avaliar MLLMs nessas propriedades cognitivas de imagem. Nossa avaliação revela uma lacuna significativa: os modelos atuais estão pouco alinhados com a percepção humana dessas propriedades sutis. Em seguida, demonstramos que uma fase de pós-treinamento pode efetivamente preencher essa lacuna, melhorando significativamente o alinhamento do modelo com os julgamentos humanos. Além disso, mostramos que esse alinhamento cognitivo aprendido não é meramente preditivo, mas também transferível para tarefas criativas subsequentes. Ao integrar nosso MLLM cognitivamente alinhado em um pipeline de geração de imagens, podemos orientar o processo de síntese para produzir imagens que melhor incorporem características desejadas, como ser mais memorável ou visualmente atraente. Nosso trabalho fornece um benchmark para medir essa percepção humanizada, um pipeline de pós-treinamento para aprimorá-la e uma demonstração de que esse alinhamento possibilita uma IA mais centrada no ser humano.
English
While Multimodal Large Language Models (MLLMs) are adept at answering what is in an image-identifying objects and describing scenes-they often lack the ability to understand how an image feels to a human observer. This gap is most evident when considering subjective cognitive properties, such as what makes an image memorable, funny, aesthetically pleasing, or emotionally evocative. To systematically address this challenge, we introduce CogIP-Bench, a comprehensive benchmark for evaluating MLLMs on such image cognitive properties. Our evaluation reveals a significant gap: current models are poorly aligned with human perception of these nuanced properties. We then demonstrate that a post-training phase can effectively bridge this gap, significantly enhancing the model's alignment with human judgments. Furthermore, we show that this learned cognitive alignment is not merely predictive but also transferable to downstream creative tasks. By integrating our cognitively-aligned MLLM into an image generation pipeline, we can guide the synthesis process to produce images that better embody desired traits, such as being more memorable or visually appealing. Our work provides a benchmark to measure this human-like perception, a post-training pipeline to enhance it, and a demonstration that this alignment unlocks more human-centric AI.