Deixe Androides Sonharem com Ovelhas Elétricas: Um Framework de Compreensão e Raciocínio para Implicações de Imagens Humanizadas

Resumo

A compreensão metafórica em imagens continua sendo um desafio crítico para os sistemas de IA, uma vez que os modelos existentes têm dificuldade em captar as nuances culturais, emocionais e contextuais embutidas no conteúdo visual. Embora os modelos de linguagem multimodal de grande escala (MLLMs) se destaquem em tarefas básicas de Resposta a Perguntas Visuais (VQA), eles enfrentam uma limitação fundamental em tarefas de implicação visual: lacunas contextuais que obscurecem as relações entre diferentes elementos visuais e seus significados abstratos. Inspirados pelo processo cognitivo humano, propomos o Let Androids Dream (LAD), uma nova estrutura para compreensão e raciocínio sobre implicações visuais. O LAD aborda a falta de contexto por meio de uma estrutura de três estágios: (1) Percepção: conversão de informações visuais em representações textuais ricas e multiníveis, (2) Busca: busca iterativa e integração de conhecimento de múltiplos domínios para resolver ambiguidades, e (3) Raciocínio: geração de implicações visuais alinhadas ao contexto por meio de raciocínio explícito. Nossa estrutura, com o modelo leve GPT-4o-mini, alcança desempenho de ponta (SOTA) em comparação com mais de 15 MLLMs no benchmark de implicação visual em inglês e uma grande melhoria no benchmark em chinês, apresentando desempenho comparável ao modelo GPT-4o em Perguntas de Múltipla Escolha (MCQ) e superando-o em 36,7% em Perguntas de Resposta Aberta (OSQ). Além disso, nosso trabalho oferece novas perspectivas sobre como a IA pode interpretar implicações visuais de forma mais eficaz, avançando o campo do raciocínio visão-linguagem e da interação humano-IA. Nosso projeto está disponível publicamente em https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.

English

Metaphorical comprehension in images remains a critical challenge for AI systems, as existing models struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. While multimodal large language models (MLLMs) excel in basic Visual Question Answer (VQA) tasks, they struggle with a fundamental limitation on image implication tasks: contextual gaps that obscure the relationships between different visual elements and their abstract meanings. Inspired by the human cognitive process, we propose Let Androids Dream (LAD), a novel framework for image implication understanding and reasoning. LAD addresses contextual missing through the three-stage framework: (1) Perception: converting visual information into rich and multi-level textual representations, (2) Search: iteratively searching and integrating cross-domain knowledge to resolve ambiguity, and (3) Reasoning: generating context-alignment image implication via explicit reasoning. Our framework with the lightweight GPT-4o-mini model achieves SOTA performance compared to 15+ MLLMs on English image implication benchmark and a huge improvement on Chinese benchmark, performing comparable with the GPT-4o model on Multiple-Choice Question (MCQ) and outperforms 36.7% on Open-Style Question (OSQ). Additionally, our work provides new insights into how AI can more effectively interpret image implications, advancing the field of vision-language reasoning and human-AI interaction. Our project is publicly available at https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.

Deixe Androides Sonharem com Ovelhas Elétricas: Um Framework de Compreensão e Raciocínio para Implicações de Imagens Humanizadas

Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework

Resumo

Support