Erkläre, bevor du antwortest: Eine Übersicht zur kompositionellen visuellen Argumentation
Explain Before You Answer: A Survey on Compositional Visual Reasoning
August 24, 2025
papers.authors: Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi
cs.AI
papers.abstract
Kompositionales visuelles Denken hat sich als eine zentrale Forschungsfront in der multimodalen KI etabliert, mit dem Ziel, Maschinen die menschenähnliche Fähigkeit zu verleihen, visuelle Szenen zu zerlegen, Zwischenkonzepte zu verankern und mehrstufige logische Schlussfolgerungen durchzuführen. Während frühere Übersichtsarbeiten sich auf monolithische Vision-Sprache-Modelle oder allgemeines multimodales Denken konzentrierten, fehlt bislang eine gezielte Synthese der sich rasch ausweitenden Literatur zum kompositionalen visuellen Denken. Wir schließen diese Lücke mit einer umfassenden Übersicht, die den Zeitraum von 2023 bis 2025 abdeckt und systematisch über 260 Publikationen aus führenden Konferenzen (CVPR, ICCV, NeurIPS, ICML, ACL usw.) untersucht. Wir formalisieren zunächst Kernbegriffe und erläutern, warum kompositionale Ansätze Vorteile in Bezug auf kognitive Ausrichtung, semantische Treue, Robustheit, Interpretierbarkeit und Dateneffizienz bieten. Anschließend zeichnen wir einen Paradigmenwechsel in fünf Phasen nach: von promptgestützten sprachzentrierten Pipelines über toolgestützte LLMs und toolgestützte VLMs bis hin zu kürzlich entwickelten Chain-of-Thought-Reasoning-Ansätzen und vereinheitlichten agentenbasierten VLMs, wobei wir deren Architekturdesigns, Stärken und Grenzen hervorheben. Daraufhin katalogisieren wir über 60 Benchmarks und entsprechende Metriken, die kompositionales visuelles Denken in Dimensionen wie Verankerungsgenauigkeit, Chain-of-Thought-Treue und hochauflösende Wahrnehmung untersuchen. Basierend auf diesen Analysen destillieren wir zentrale Erkenntnisse, identifizieren offene Herausforderungen (z. B. Grenzen von LLM-basiertem Denken, Halluzinationen, eine Tendenz zu deduktivem Denken, skalierbare Supervision, Tool-Integration und Benchmark-Beschränkungen) und skizzieren zukünftige Richtungen, darunter die Integration von Weltmodellen, menschlich-KI-kollaboratives Denken und umfassendere Evaluationsprotokolle. Indem wir eine einheitliche Taxonomie, einen historischen Fahrplan und einen kritischen Ausblick bieten, zielt diese Übersicht darauf ab, als grundlegende Referenz zu dienen und die nächste Generation der Forschung zum kompositionalen visuellen Denken zu inspirieren.
English
Compositional visual reasoning has emerged as a key research frontier in
multimodal AI, aiming to endow machines with the human-like ability to
decompose visual scenes, ground intermediate concepts, and perform multi-step
logical inference. While early surveys focus on monolithic vision-language
models or general multimodal reasoning, a dedicated synthesis of the rapidly
expanding compositional visual reasoning literature is still missing. We fill
this gap with a comprehensive survey spanning 2023 to 2025 that systematically
reviews 260+ papers from top venues (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). We
first formalize core definitions and describe why compositional approaches
offer advantages in cognitive alignment, semantic fidelity, robustness,
interpretability, and data efficiency. Next, we trace a five-stage paradigm
shift: from prompt-enhanced language-centric pipelines, through tool-enhanced
LLMs and tool-enhanced VLMs, to recently minted chain-of-thought reasoning and
unified agentic VLMs, highlighting their architectural designs, strengths, and
limitations. We then catalog 60+ benchmarks and corresponding metrics that
probe compositional visual reasoning along dimensions such as grounding
accuracy, chain-of-thought faithfulness, and high-resolution perception.
Drawing on these analyses, we distill key insights, identify open challenges
(e.g., limitations of LLM-based reasoning, hallucination, a bias toward
deductive reasoning, scalable supervision, tool integration, and benchmark
limitations), and outline future directions, including world-model integration,
human-AI collaborative reasoning, and richer evaluation protocols. By offering
a unified taxonomy, historical roadmap, and critical outlook, this survey aims
to serve as a foundational reference and inspire the next generation of
compositional visual reasoning research.