Deixe Androides Sonharem com Ovelhas Elétricas: Um Framework de Compreensão e Raciocínio para Implicações de Imagens Humanizadas
Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework
May 22, 2025
Autores: Chenhao Zhang, Yazhe Niu
cs.AI
Resumo
A compreensão metafórica em imagens continua sendo um desafio crítico para os sistemas de IA, uma vez que os modelos existentes têm dificuldade em captar as nuances culturais, emocionais e contextuais embutidas no conteúdo visual. Embora os modelos de linguagem multimodal de grande escala (MLLMs) se destaquem em tarefas básicas de Resposta a Perguntas Visuais (VQA), eles enfrentam uma limitação fundamental em tarefas de implicação visual: lacunas contextuais que obscurecem as relações entre diferentes elementos visuais e seus significados abstratos. Inspirados pelo processo cognitivo humano, propomos o Let Androids Dream (LAD), uma nova estrutura para compreensão e raciocínio sobre implicações visuais. O LAD aborda a falta de contexto por meio de uma estrutura de três estágios: (1) Percepção: conversão de informações visuais em representações textuais ricas e multiníveis, (2) Busca: busca iterativa e integração de conhecimento de múltiplos domínios para resolver ambiguidades, e (3) Raciocínio: geração de implicações visuais alinhadas ao contexto por meio de raciocínio explícito. Nossa estrutura, com o modelo leve GPT-4o-mini, alcança desempenho de ponta (SOTA) em comparação com mais de 15 MLLMs no benchmark de implicação visual em inglês e uma grande melhoria no benchmark em chinês, apresentando desempenho comparável ao modelo GPT-4o em Perguntas de Múltipla Escolha (MCQ) e superando-o em 36,7% em Perguntas de Resposta Aberta (OSQ). Além disso, nosso trabalho oferece novas perspectivas sobre como a IA pode interpretar implicações visuais de forma mais eficaz, avançando o campo do raciocínio visão-linguagem e da interação humano-IA. Nosso projeto está disponível publicamente em https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.
English
Metaphorical comprehension in images remains a critical challenge for AI
systems, as existing models struggle to grasp the nuanced cultural, emotional,
and contextual implications embedded in visual content. While multimodal large
language models (MLLMs) excel in basic Visual Question Answer (VQA) tasks, they
struggle with a fundamental limitation on image implication tasks: contextual
gaps that obscure the relationships between different visual elements and their
abstract meanings. Inspired by the human cognitive process, we propose Let
Androids Dream (LAD), a novel framework for image implication understanding and
reasoning. LAD addresses contextual missing through the three-stage framework:
(1) Perception: converting visual information into rich and multi-level textual
representations, (2) Search: iteratively searching and integrating cross-domain
knowledge to resolve ambiguity, and (3) Reasoning: generating context-alignment
image implication via explicit reasoning. Our framework with the lightweight
GPT-4o-mini model achieves SOTA performance compared to 15+ MLLMs on English
image implication benchmark and a huge improvement on Chinese benchmark,
performing comparable with the GPT-4o model on Multiple-Choice Question (MCQ)
and outperforms 36.7% on Open-Style Question (OSQ). Additionally, our work
provides new insights into how AI can more effectively interpret image
implications, advancing the field of vision-language reasoning and human-AI
interaction. Our project is publicly available at
https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.