ChatPaper.aiChatPaper

픽셀에서 감정으로: 인간의 인지적 이미지 인식과 MLLM 정렬하기

From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images

November 27, 2025
저자: Yiming Chen, Junlin Han, Tianyi Bai, Shengbang Tong, Filippos Kokkinos, Philip Torr
cs.AI

초록

다중 모달 대규모 언어 모델(MLLMs)은 이미지에 무엇이 있는지(객체 식별 및 장면 설명) 답변하는 데 능숙하지만, 인간 관찰자의 입장에서 이미지가 어떻게 느껴지는지 이해하는 능력은 종종 부족합니다. 이러한 격차는 무엇이 이미지를 기억에 남거나, 웃겁거나, 미적으로 만족스럽거나, 감정적으로 감동시키는지와 같은 주관적 인지 속성을 고려할 때 가장 두드러집니다. 이러한 과제를 체계적으로 해결하기 위해 우리는 이미지 인지 속성에 대한 MLLMs 평가를 위한 포괄적인 벤치마크인 CogIP-Bench를 소개합니다. 우리의 평가는 현재 모델들이 이러한 미묘한 속성에 대한 인간의 인식과 매우 부족하게 일치함을 보여줍니다. 그런 다음 사후 훈련 단계를 통해 이 격차를 효과적으로 해결하고 모델의 인간 판단과의 일치성을 크게 향상시킬 수 있음을 입증합니다. 나아가, 학습된 인지 일치성이 단순히 예측적인 것을 넘어 다운스트림 창의적 작업으로도 전이 가능함을 보여줍니다. 우리의 인지-일치 MLLM을 이미지 생성 파이프라인에 통합함으로써, 더 기억에 남거나 시각적으로 매력적인 이미지와 같이 원하는 특성을 더 잘 구현하는 이미지를 생성하도록 합성 과정을 안내할 수 있습니다. 우리의 연구는 이러한 인간 유사 인지를 측정하는 벤치마크, 이를 향상시키는 사후 훈련 파이프라인, 그리고 이러한 일치가 더 인간 중심적인 AI를 가능하게 함을 입증하는 것을 제공합니다.
English
While Multimodal Large Language Models (MLLMs) are adept at answering what is in an image-identifying objects and describing scenes-they often lack the ability to understand how an image feels to a human observer. This gap is most evident when considering subjective cognitive properties, such as what makes an image memorable, funny, aesthetically pleasing, or emotionally evocative. To systematically address this challenge, we introduce CogIP-Bench, a comprehensive benchmark for evaluating MLLMs on such image cognitive properties. Our evaluation reveals a significant gap: current models are poorly aligned with human perception of these nuanced properties. We then demonstrate that a post-training phase can effectively bridge this gap, significantly enhancing the model's alignment with human judgments. Furthermore, we show that this learned cognitive alignment is not merely predictive but also transferable to downstream creative tasks. By integrating our cognitively-aligned MLLM into an image generation pipeline, we can guide the synthesis process to produce images that better embody desired traits, such as being more memorable or visually appealing. Our work provides a benchmark to measure this human-like perception, a post-training pipeline to enhance it, and a demonstration that this alignment unlocks more human-centric AI.
PDF21December 2, 2025