Leg Uit Voordat Je Antwoordt: Een Onderzoek naar Compositioneel Visueel Redeneren
Explain Before You Answer: A Survey on Compositional Visual Reasoning
August 24, 2025
Auteurs: Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi
cs.AI
Samenvatting
Compositioneel visueel redeneren is naar voren gekomen als een belangrijk onderzoeksgebied binnen multimodale AI, met als doel machines te voorzien van een mensachtig vermogen om visuele scènes te ontleden, tussenliggende concepten te verankeren en meerstaps logische inferentie uit te voeren. Terwijl eerdere overzichten zich richten op monolithische visie-taalmodellen of algemeen multimodaal redeneren, ontbreekt nog steeds een toegewijde synthese van de snel uitbreidende literatuur over compositioneel visueel redeneren. Wij vullen deze leemte met een uitgebreid overzicht dat de periode van 2023 tot 2025 beslaat en systematisch 260+ papers uit toonaangevende conferenties (CVPR, ICCV, NeurIPS, ICML, ACL, etc.) bespreekt. We formaliseren eerst kerndefinities en beschrijven waarom compositionele benaderingen voordelen bieden op het gebied van cognitieve afstemming, semantische trouw, robuustheid, interpreteerbaarheid en data-efficiëntie. Vervolgens schetsen we een paradigmaverschuiving in vijf fasen: van prompt-versterkte taalgerichte pijplijnen, via tool-versterkte LLM's en tool-versterkte VLM's, tot recentelijk geïntroduceerde chain-of-thought redenering en geünificeerde agent-gebaseerde VLM's, waarbij we hun architectonische ontwerpen, sterke punten en beperkingen belichten. Daarna catalogiseren we 60+ benchmarks en bijbehorende metrieken die compositioneel visueel redeneren onderzoeken langs dimensies zoals verankeringsnauwkeurigheid, chain-of-thought trouw en hoogresolutie perceptie. Op basis van deze analyses destilleren we belangrijke inzichten, identificeren we openstaande uitdagingen (bijv. beperkingen van LLM-gebaseerd redeneren, hallucinatie, een bias naar deductief redeneren, schaalbare supervisie, toolintegratie en benchmarkbeperkingen) en schetsen we toekomstige richtingen, waaronder wereldmodelintegratie, mens-AI collaboratief redeneren en rijkere evaluatieprotocollen. Door een geünificeerde taxonomie, historische routekaart en kritisch perspectief te bieden, beoogt dit overzicht te dienen als een fundamenteel referentiewerk en de volgende generatie van onderzoek naar compositioneel visueel redeneren te inspireren.
English
Compositional visual reasoning has emerged as a key research frontier in
multimodal AI, aiming to endow machines with the human-like ability to
decompose visual scenes, ground intermediate concepts, and perform multi-step
logical inference. While early surveys focus on monolithic vision-language
models or general multimodal reasoning, a dedicated synthesis of the rapidly
expanding compositional visual reasoning literature is still missing. We fill
this gap with a comprehensive survey spanning 2023 to 2025 that systematically
reviews 260+ papers from top venues (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). We
first formalize core definitions and describe why compositional approaches
offer advantages in cognitive alignment, semantic fidelity, robustness,
interpretability, and data efficiency. Next, we trace a five-stage paradigm
shift: from prompt-enhanced language-centric pipelines, through tool-enhanced
LLMs and tool-enhanced VLMs, to recently minted chain-of-thought reasoning and
unified agentic VLMs, highlighting their architectural designs, strengths, and
limitations. We then catalog 60+ benchmarks and corresponding metrics that
probe compositional visual reasoning along dimensions such as grounding
accuracy, chain-of-thought faithfulness, and high-resolution perception.
Drawing on these analyses, we distill key insights, identify open challenges
(e.g., limitations of LLM-based reasoning, hallucination, a bias toward
deductive reasoning, scalable supervision, tool integration, and benchmark
limitations), and outline future directions, including world-model integration,
human-AI collaborative reasoning, and richer evaluation protocols. By offering
a unified taxonomy, historical roadmap, and critical outlook, this survey aims
to serve as a foundational reference and inspire the next generation of
compositional visual reasoning research.