ChatPaper.aiChatPaper

Expliquez avant de répondre : Une étude sur le raisonnement visuel compositionnel

Explain Before You Answer: A Survey on Compositional Visual Reasoning

August 24, 2025
papers.authors: Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi
cs.AI

papers.abstract

Le raisonnement visuel compositionnel est apparu comme une frontière clé de la recherche en IA multimodale, visant à doter les machines d'une capacité semblable à celle des humains à décomposer des scènes visuelles, à ancrer des concepts intermédiaires et à effectuer des inférences logiques en plusieurs étapes. Alors que les premières études se concentrent sur des modèles monolithiques vision-langage ou sur le raisonnement multimodal général, une synthèse dédiée de la littérature en expansion rapide sur le raisonnement visuel compositionnel fait encore défaut. Nous comblons cette lacune avec une étude exhaustive couvrant la période de 2023 à 2025, qui passe en revue systématiquement plus de 260 articles issus des principales conférences (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). Nous formalisons d'abord les définitions clés et expliquons pourquoi les approches compositionnelles offrent des avantages en termes d'alignement cognitif, de fidélité sémantique, de robustesse, d'interprétabilité et d'efficacité des données. Ensuite, nous retraçons un changement de paradigme en cinq étapes : des pipelines centrés sur le langage améliorés par des prompts, en passant par les LLM et VLM améliorés par des outils, jusqu'aux récents raisonnements en chaîne de pensée et aux VLM unifiés de type agent, en mettant en lumière leurs conceptions architecturales, leurs forces et leurs limites. Nous cataloguons ensuite plus de 60 benchmarks et les métriques correspondantes qui explorent le raisonnement visuel compositionnel selon des dimensions telles que la précision de l'ancrage, la fidélité de la chaîne de pensée et la perception haute résolution. En nous appuyant sur ces analyses, nous distillons des insights clés, identifions des défis ouverts (par exemple, les limites du raisonnement basé sur les LLM, les hallucinations, un biais en faveur du raisonnement déductif, la supervision scalable, l'intégration d'outils et les limites des benchmarks) et esquissons des directions futures, notamment l'intégration de modèles du monde, le raisonnement collaboratif humain-IA et des protocoles d'évaluation plus riches. En proposant une taxonomie unifiée, une feuille de route historique et une perspective critique, cette étude vise à servir de référence fondatrice et à inspirer la prochaine génération de recherches sur le raisonnement visuel compositionnel.
English
Compositional visual reasoning has emerged as a key research frontier in multimodal AI, aiming to endow machines with the human-like ability to decompose visual scenes, ground intermediate concepts, and perform multi-step logical inference. While early surveys focus on monolithic vision-language models or general multimodal reasoning, a dedicated synthesis of the rapidly expanding compositional visual reasoning literature is still missing. We fill this gap with a comprehensive survey spanning 2023 to 2025 that systematically reviews 260+ papers from top venues (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). We first formalize core definitions and describe why compositional approaches offer advantages in cognitive alignment, semantic fidelity, robustness, interpretability, and data efficiency. Next, we trace a five-stage paradigm shift: from prompt-enhanced language-centric pipelines, through tool-enhanced LLMs and tool-enhanced VLMs, to recently minted chain-of-thought reasoning and unified agentic VLMs, highlighting their architectural designs, strengths, and limitations. We then catalog 60+ benchmarks and corresponding metrics that probe compositional visual reasoning along dimensions such as grounding accuracy, chain-of-thought faithfulness, and high-resolution perception. Drawing on these analyses, we distill key insights, identify open challenges (e.g., limitations of LLM-based reasoning, hallucination, a bias toward deductive reasoning, scalable supervision, tool integration, and benchmark limitations), and outline future directions, including world-model integration, human-AI collaborative reasoning, and richer evaluation protocols. By offering a unified taxonomy, historical roadmap, and critical outlook, this survey aims to serve as a foundational reference and inspire the next generation of compositional visual reasoning research.
PDF21August 26, 2025