ChatPaper.aiChatPaper

안드로이드가 전기 양을 꿈꾸게 하라: 인간과 유사한 이미지 함의 이해 및 추론 프레임워크

Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework

May 22, 2025
저자: Chenhao Zhang, Yazhe Niu
cs.AI

초록

이미지에서의 은유적 이해는 AI 시스템에게 여전히 중요한 과제로 남아 있습니다. 기존 모델들은 시각적 콘텐츠에 내재된 미묘한 문화적, 감정적, 맥락적 함의를 파악하는 데 어려움을 겪고 있습니다. 다중모달 대형 언어 모델(MLLMs)이 기본적인 시각적 질문 응답(VQA) 작업에서는 뛰어난 성능을 보이지만, 이미지 함의 작업에서는 근본적인 한계를 드러냅니다. 바로 서로 다른 시각적 요소들과 그들의 추상적 의미 간의 관계를 가리는 맥락적 격차입니다. 인간의 인지 과정에서 영감을 받아, 우리는 이미지 함의 이해와 추론을 위한 새로운 프레임워크인 Let Androids Dream(LAD)을 제안합니다. LAD는 세 단계의 프레임워크를 통해 맥락적 결여를 해결합니다: (1) 지각: 시각 정보를 풍부하고 다층적인 텍스트 표현으로 변환, (2) 탐색: 모호성을 해결하기 위해 교차 도메인 지식을 반복적으로 탐색 및 통합, (3) 추론: 명시적 추론을 통해 맥락에 맞는 이미지 함의를 생성. 우리의 프레임워크는 경량화된 GPT-4o-mini 모델을 사용하여 영어 이미지 함의 벤치마크에서 15개 이상의 MLLMs 대비 SOTA 성능을 달성했으며, 중국어 벤치마크에서도 큰 개선을 보였습니다. 또한, 객관식 질문(MCQ)에서는 GPT-4o 모델과 비슷한 성능을 보였고, 주관식 질문(OSQ)에서는 36.7% 더 우수한 성능을 보였습니다. 추가적으로, 우리의 연구는 AI가 이미지 함의를 더 효과적으로 해석할 수 있는 방법에 대한 새로운 통찰을 제공하며, 시각-언어 추론 및 인간-AI 상호작용 분야를 발전시킵니다. 우리의 프로젝트는 https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep에서 공개적으로 이용 가능합니다.
English
Metaphorical comprehension in images remains a critical challenge for AI systems, as existing models struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. While multimodal large language models (MLLMs) excel in basic Visual Question Answer (VQA) tasks, they struggle with a fundamental limitation on image implication tasks: contextual gaps that obscure the relationships between different visual elements and their abstract meanings. Inspired by the human cognitive process, we propose Let Androids Dream (LAD), a novel framework for image implication understanding and reasoning. LAD addresses contextual missing through the three-stage framework: (1) Perception: converting visual information into rich and multi-level textual representations, (2) Search: iteratively searching and integrating cross-domain knowledge to resolve ambiguity, and (3) Reasoning: generating context-alignment image implication via explicit reasoning. Our framework with the lightweight GPT-4o-mini model achieves SOTA performance compared to 15+ MLLMs on English image implication benchmark and a huge improvement on Chinese benchmark, performing comparable with the GPT-4o model on Multiple-Choice Question (MCQ) and outperforms 36.7% on Open-Style Question (OSQ). Additionally, our work provides new insights into how AI can more effectively interpret image implications, advancing the field of vision-language reasoning and human-AI interaction. Our project is publicly available at https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.

Summary

AI-Generated Summary

PDF33May 23, 2025