ChatPaper.aiChatPaper

Lassen wir Androiden von elektrischen Schafen träumen: Ein menschenähnliches Rahmenwerk zur Bildimplikationsverständnis und -schlussfolgerung

Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework

May 22, 2025
Autoren: Chenhao Zhang, Yazhe Niu
cs.AI

Zusammenfassung

Die metaphorische Interpretation von Bildern bleibt eine entscheidende Herausforderung für KI-Systeme, da bestehende Modelle Schwierigkeiten haben, die subtilen kulturellen, emotionalen und kontextuellen Implikationen in visuellen Inhalten zu erfassen. Während multimodale große Sprachmodelle (MLLMs) bei grundlegenden Visual Question Answer (VQA)-Aufgaben hervorragende Leistungen erbringen, stoßen sie bei Aufgaben zur Bildimplikation auf eine grundlegende Einschränkung: kontextuelle Lücken, die die Beziehungen zwischen verschiedenen visuellen Elementen und ihren abstrakten Bedeutungen verschleiern. Inspiriert vom menschlichen kognitiven Prozess schlagen wir Let Androids Dream (LAD) vor, ein neuartiges Framework zum Verständnis und zur Schlussfolgerung von Bildimplikationen. LAD adressiert kontextuelle Lücken durch ein dreistufiges Framework: (1) Wahrnehmung: Umwandlung visueller Informationen in reichhaltige und mehrstufige textuelle Repräsentationen, (2) Suche: iteratives Suchen und Integrieren von domänenübergreifendem Wissen zur Auflösung von Mehrdeutigkeiten und (3) Schlussfolgerung: Erzeugung von kontextangepassten Bildimplikationen durch explizite Schlussfolgerungen. Unser Framework mit dem leichtgewichtigen GPT-4o-mini-Modell erreicht im Vergleich zu über 15 MLLMs Spitzenleistungen auf dem englischen Benchmark für Bildimplikationen und eine deutliche Verbesserung auf dem chinesischen Benchmark, wobei es auf Multiple-Choice Question (MCQ) vergleichbar mit dem GPT-4o-Modell abschneidet und bei Open-Style Question (OSQ) um 36,7 % übertrifft. Darüber hinaus liefert unsere Arbeit neue Erkenntnisse darüber, wie KI Bildimplikationen effektiver interpretieren kann, und trägt so zur Weiterentwicklung der Bild-Sprache-Schlussfolgerung und der Mensch-KI-Interaktion bei. Unser Projekt ist öffentlich verfügbar unter https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.
English
Metaphorical comprehension in images remains a critical challenge for AI systems, as existing models struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. While multimodal large language models (MLLMs) excel in basic Visual Question Answer (VQA) tasks, they struggle with a fundamental limitation on image implication tasks: contextual gaps that obscure the relationships between different visual elements and their abstract meanings. Inspired by the human cognitive process, we propose Let Androids Dream (LAD), a novel framework for image implication understanding and reasoning. LAD addresses contextual missing through the three-stage framework: (1) Perception: converting visual information into rich and multi-level textual representations, (2) Search: iteratively searching and integrating cross-domain knowledge to resolve ambiguity, and (3) Reasoning: generating context-alignment image implication via explicit reasoning. Our framework with the lightweight GPT-4o-mini model achieves SOTA performance compared to 15+ MLLMs on English image implication benchmark and a huge improvement on Chinese benchmark, performing comparable with the GPT-4o model on Multiple-Choice Question (MCQ) and outperforms 36.7% on Open-Style Question (OSQ). Additionally, our work provides new insights into how AI can more effectively interpret image implications, advancing the field of vision-language reasoning and human-AI interaction. Our project is publicly available at https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.

Summary

AI-Generated Summary

PDF33May 23, 2025