De píxeles a sentimientos: Alineando los MLLM con la percepción cognitiva humana de las imágenes
From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
November 27, 2025
Autores: Yiming Chen, Junlin Han, Tianyi Bai, Shengbang Tong, Filippos Kokkinos, Philip Torr
cs.AI
Resumen
Si bien los Modelos de Lenguaje Grandes Multimodales (MLLMs) son expertos en responder qué hay en una imagen —identificando objetos y describiendo escenas—, a menudo carecen de la capacidad de comprender cómo se siente una imagen para un observador humano. Esta brecha es más evidente al considerar propiedades cognitivas subjetivas, como qué hace que una imagen sea memorable, divertida, estéticamente agradable o emocionalmente evocadora. Para abordar este desafío de manera sistemática, presentamos CogIP-Bench, un benchmark integral para evaluar MLLMs en dichas propiedades cognitivas de las imágenes. Nuestra evaluación revela una brecha significativa: los modelos actuales están pobremente alineados con la percepción humana de estas propiedades matizadas. Luego demostramos que una fase de post-entrenamiento puede cerrar esta brecha de manera efectiva, mejorando significativamente la alineación del modelo con los juicios humanos. Además, mostramos que esta alineación cognitiva aprendida no es meramente predictiva, sino también transferible a tareas creativas posteriores. Al integrar nuestro MLLM cognitivamente alineado en un pipeline de generación de imágenes, podemos guiar el proceso de síntesis para producir imágenes que encarnen mejor los rasgos deseados, como ser más memorables o visualmente atractivas. Nuestro trabajo proporciona un benchmark para medir esta percepción similar a la humana, un pipeline de post-entrenamiento para mejorarla, y una demostración de que esta alineación permite una IA más centrada en las personas.
English
While Multimodal Large Language Models (MLLMs) are adept at answering what is in an image-identifying objects and describing scenes-they often lack the ability to understand how an image feels to a human observer. This gap is most evident when considering subjective cognitive properties, such as what makes an image memorable, funny, aesthetically pleasing, or emotionally evocative. To systematically address this challenge, we introduce CogIP-Bench, a comprehensive benchmark for evaluating MLLMs on such image cognitive properties. Our evaluation reveals a significant gap: current models are poorly aligned with human perception of these nuanced properties. We then demonstrate that a post-training phase can effectively bridge this gap, significantly enhancing the model's alignment with human judgments. Furthermore, we show that this learned cognitive alignment is not merely predictive but also transferable to downstream creative tasks. By integrating our cognitively-aligned MLLM into an image generation pipeline, we can guide the synthesis process to produce images that better embody desired traits, such as being more memorable or visually appealing. Our work provides a benchmark to measure this human-like perception, a post-training pipeline to enhance it, and a demonstration that this alignment unlocks more human-centric AI.