ChatPaper.aiChatPaper

ピクセルから感情へ:MLLMと人間の画像認知知覚の統合

From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images

November 27, 2025
著者: Yiming Chen, Junlin Han, Tianyi Bai, Shengbang Tong, Filippos Kokkinos, Philip Torr
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は、画像内の物体を識別し情景を描写するといった「画像に何が写っているか」を問う課題には熟達しているが、人間の観察者が画像を「どのように感じるか」を理解する能力は往々にして欠如している。この隔たりは、画像の記憶に残りやすさ、滑稽さ、審美性、感情喚起性といった、主観的認知特性を考慮する際に最も顕著となる。この課題に体系的に取り組むため、我々は画像の認知特性に関するMLLM評価のための包括的ベンチマーク「CogIP-Bench」を提案する。評価結果から、現行のモデルはこれらの微妙な特性に対する人間の知覚との整合性が著しく低いことが明らかになった。次に、ポストトレーニング(訓練後学習)段階を導入することでこの隔たりを効果的に埋め、モデルと人間の判断との整合性を大幅に向上させ得ることを実証する。さらに、このようにして獲得された認知的整合性は、単に予測に留まらず、下流の創造的タスクにも転移可能であることを示す。我々の認知的に整合したMLLMを画像生成パイプラインに統合することで、合成プロセスを誘導し、より記憶に残る、または視覚的に魅力的であるといった、望ましい特性をより良く具現化した画像を生成できる。本研究は、この人間らしい知覚を測定するベンチマーク、それを強化するポストトレーニングの手法、そしてこの整合性がより人間中心のAIを実現する可能性を示す実証を提供する。
English
While Multimodal Large Language Models (MLLMs) are adept at answering what is in an image-identifying objects and describing scenes-they often lack the ability to understand how an image feels to a human observer. This gap is most evident when considering subjective cognitive properties, such as what makes an image memorable, funny, aesthetically pleasing, or emotionally evocative. To systematically address this challenge, we introduce CogIP-Bench, a comprehensive benchmark for evaluating MLLMs on such image cognitive properties. Our evaluation reveals a significant gap: current models are poorly aligned with human perception of these nuanced properties. We then demonstrate that a post-training phase can effectively bridge this gap, significantly enhancing the model's alignment with human judgments. Furthermore, we show that this learned cognitive alignment is not merely predictive but also transferable to downstream creative tasks. By integrating our cognitively-aligned MLLM into an image generation pipeline, we can guide the synthesis process to produce images that better embody desired traits, such as being more memorable or visually appealing. Our work provides a benchmark to measure this human-like perception, a post-training pipeline to enhance it, and a demonstration that this alignment unlocks more human-centric AI.
PDF21December 2, 2025