ChatPaper.aiChatPaper

説明してから回答する:構成視覚的推論に関する調査

Explain Before You Answer: A Survey on Compositional Visual Reasoning

August 24, 2025
著者: Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi
cs.AI

要旨

構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして浮上しており、機械に視覚シーンを分解し、中間概念をグラウンディングし、多段階の論理的推論を行う人間のような能力を付与することを目指している。初期のサーベイはモノリシックな視覚言語モデルや一般的なマルチモーダル推論に焦点を当てているが、急速に拡大する構成的視覚推論文献を網羅した専用の総説はまだ存在しない。我々は、2023年から2025年にかけてトップカンファレンス(CVPR、ICCV、NeurIPS、ICML、ACLなど)で発表された260以上の論文を体系的にレビューする包括的なサーベイを通じてこのギャップを埋める。まず、中核的な定義を形式化し、構成的アプローチが認知整合性、意味的忠実性、頑健性、解釈可能性、データ効率性において優位性を提供する理由を説明する。次に、プロンプト強化型の言語中心パイプラインから、ツール強化型LLM、ツール強化型VLMを経て、最近登場した連鎖的思考推論や統一エージェント型VLMまでの5段階のパラダイムシフトを追跡し、それらのアーキテクチャ設計、強み、限界を強調する。さらに、グラウンディング精度、連鎖的思考の忠実性、高解像度知覚などの次元に沿って構成的視覚推論を探る60以上のベンチマークと対応する指標をカタログ化する。これらの分析に基づいて、主要な洞察を抽出し、未解決の課題(例:LLMベースの推論の限界、幻覚、演繹的推論へのバイアス、スケーラブルな監督、ツール統合、ベンチマークの限界)を特定し、世界モデルの統合、人間-AI協調推論、より豊富な評価プロトコルを含む将来の方向性を概説する。統一された分類体系、歴史的ロードマップ、批判的展望を提供することで、本サーベイは基礎的なリファレンスとして機能し、次世代の構成的視覚推論研究を刺激することを目指している。
English
Compositional visual reasoning has emerged as a key research frontier in multimodal AI, aiming to endow machines with the human-like ability to decompose visual scenes, ground intermediate concepts, and perform multi-step logical inference. While early surveys focus on monolithic vision-language models or general multimodal reasoning, a dedicated synthesis of the rapidly expanding compositional visual reasoning literature is still missing. We fill this gap with a comprehensive survey spanning 2023 to 2025 that systematically reviews 260+ papers from top venues (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). We first formalize core definitions and describe why compositional approaches offer advantages in cognitive alignment, semantic fidelity, robustness, interpretability, and data efficiency. Next, we trace a five-stage paradigm shift: from prompt-enhanced language-centric pipelines, through tool-enhanced LLMs and tool-enhanced VLMs, to recently minted chain-of-thought reasoning and unified agentic VLMs, highlighting their architectural designs, strengths, and limitations. We then catalog 60+ benchmarks and corresponding metrics that probe compositional visual reasoning along dimensions such as grounding accuracy, chain-of-thought faithfulness, and high-resolution perception. Drawing on these analyses, we distill key insights, identify open challenges (e.g., limitations of LLM-based reasoning, hallucination, a bias toward deductive reasoning, scalable supervision, tool integration, and benchmark limitations), and outline future directions, including world-model integration, human-AI collaborative reasoning, and richer evaluation protocols. By offering a unified taxonomy, historical roadmap, and critical outlook, this survey aims to serve as a foundational reference and inspire the next generation of compositional visual reasoning research.
PDF21August 26, 2025